HrAnalitik.com

HrAnalitik.com

İnsan Analitiği alanında BncInsight ve HrAnalitik.com 20'yıla yakın burada.

Gelecek veride, bekleriz.

İnsan Analitiğinde Sorunlar: Imbalance Data (Dengesiz Veri Setleri)

27-02-2026 İK Analitik ve Dijital İnsan Kaynakları HrAnalitik.com

İK Analitiğinde Imbalanced Data (Dengesiz Veri) 

Nedir?
İnsan Kaynaklarında analitik çalışmalar yaparken sıkça karşılaştığımız kavramlardan biri imbalanced data, yani dengesiz veridir.
Basitçe anlamı; bir veri setinde bazı gruplar çok fazlayken, bazı gruplar çok az sayıdaysa, bu veri dengesiz bir veridir. 
Örneğin 1000 çalışanı olan bir şirkette; 
Mevcut çalışan : 950 kişi yani “%95 çalışanlar”; 
Ayrılanlar: 50 kişi yani “%5 ayrılanlar”  ise bu veri seti **imbalanced data (dengesiz veri)**dir. Çünkü modelin gördüğü kayıtların büyük kısmı tek bir gruba aittir.


Neden Önemli?
Imbalanced data, İK analitiğinde en sık yapılan hataların kaynağıdır. Çünkü veriler dengesiz olduğunda, model çoğunluğu öğrenir ve az olanı görmezden gelme eğiliminde olur. 
Bu durumda;
• Model çok başarılı görünebilir ama ayrılacak kişileri yakalayamaz,
• “Kimler işten ayrılabilir?” sorusuna güvenilir ve doğru cevap veremez,
• İK’nın aksiyon alabileceği gerçek riskli kişiler gözden kaçabilir,
• Sonuçta analitik var gibi görünür ama işe yarayan bir içgörü üretilmez.
Daha da önemlisi, yanlış yorumlanan bir model; 
• Yanlış kişilere müdahale edilmesine,
• Gereksiz tutundurma maliyetlerine,
• Asıl kritik yeteneklerin fark edilmeden kaybedilmesine neden olabilir.
Bu yüzden imbalanced data konusu, doğrudan İK kararlarını ve bütçeyi etkileyen bir konudur.
Dengesiz Veride Kullanılan Kritik Performans Metrikleri 
Dengesiz veri setlerinde (örneğin çalışanların yalnızca küçük bir kısmının ayrıldığı turnover projelerinde) klasik performans metrikleri yanıltıcı olabilir. Bu nedenle doğru metriklere odaklanmak kritik önem taşır. 

 

  1. Accuracy (Doğruluk) : Accuracy, modelin toplam tahminlerinin ne kadarının doğru olduğunu gösterir. Ancak dengesiz veri setlerinde tek başına anlamlı değildir. Örneğin çalışanların %95’inin çalıştığı ve % 5 ‘nin ayrıldığı bir veri setine göre ; Herkesi “ayrılmayacak” olarak tahmin eden bir model, %95 Accuracy elde eder. İK açısından bu model;  Riskli çalışanları tespit edemez, Sürpriz istifaları önleyemez, Stratejik değer üretmez.Bu nedenle dengesiz veri problemlerinde accuracy yerine, azınlık sınıfını (ayrılan çalışanları) ne kadar iyi yakalayabildiğimizi gösteren metriklere odaklanmak gerekir.
  2. Recall (Yakalama Oranı) :  Gerçekten ayrılan(Positive sınıf) çalışanların kaçını doğru şekilde “riskli” olarak yakaladım? Sorusunda cevap verir.  Formül olarak: Recall = TP / (TP + FN)  TP (True Positive): Gerçekten ayrılan ve doğru riskli tahmin edilen çalışanlar,FN (False Negative): Ayrıldığı halde modelin riskli demediği çalışanlar. Recall yüksekse; Ayrılacak çalışanları kaçırma oranı düşer. Sürpriz istifalar azalır. Kritik yetenek kayıpları önceden fark edilebilir. İK projelerinde genellikle kaçırmamak önceliklidir. Bu nedenle turnover projelerinde recall çoğu zaman kritik bir metriktir. 
  3. Precision (İsabet Oranı) : Riskli dediğim çalışanların kaçı gerçekten ayrıldı? Sorusuna cevap verir. Formül olarak: Precision = TP / (TP + FP)           
  4. TP (True Positive): Gerçekten ayrılan ve doğru şekilde riskli tahmin edilen çalışanlar
  5. FP (False Positive): Gerçekte ayrılmayacakken modelin riskli olarak işaretlediği çalışanlar.

Precision yüksekse; Yanlış alarm sayısı azalır. Gereksiz tutundurma maliyetine girilmez. Güvenilir bir risk listesi oluşur.
Model performansında hangi metriğin öncelikli olacağı tamamen stratejik hedefe bağlıdır.
“Ayrılacak kimseyi kaçırmayayım” diyorsak → Recall öncelikli
“Yanlış alarm üretmeyeyim” diyorsak → Precision öncelikli


En sağlıklı yaklaşım çoğu zaman bu iki metriğin dengeli değerlendirilmesidir. Bunu da F1 Score ile yapabiliriz. 
F1-Score: Denge Noktası
F1-Score, Precision ve Recall’un harmonik ortalamasıdır.
Formül olarak: F1 = 2 × (Precision × Recall) / (Precision + Recall)
•    Precision çok yüksek ama Recall çok düşükse, 
•    Ya da Recall çok yüksek ama Precision çok düşükse F1-Score yüksek çıkmaz.
F1-Score ise; Modelin hem kaçırmadan hem de gereksiz alarm üretmeden ne kadar dengeli çalıştığını söyler. 
Turnover gibi dengesiz veri problemlerinde:
•    Sadece Recall’a bakmak modeli aşırı alarm üretmeye itebilir.
•    Sadece Precision’a bakmak ise kritik çalışanları kaçırmaya neden olabilir. 
•    F1-Score bu iki risk arasında bir denge sağlar.


Confusion Matrix: Bu metrikleri (Recall, Precision, F1) gerçekten anlamlı kılan yapı Confusion Matrix’tir. Confusion Matrix, modelin tahminlerini 4 temel kategoriye ayırır: 
Kaç kişiyi doğru yakaladın? (TP)
 Kaç kişiyi kaçırdun? (FN) 
Kaç kişiye boşuna risk dedin? (FP) 
Kaç kişiyi doğru şekilde risksiz gördün? (TN)
Model performansı tek bir skor değil, bu dört hücrenin dengesiyle anlam kazanır.


İK Analitiğinde Dengesiz Veriyle Karşılaşıldığında Teknik Olarak Neler Yapılabilir?


Dengesiz veri tespit edildiğinde, genellikle aşağıdaki teknikler kullanılır. Bunlar vb. teknikler doğru şekilde uygulandığında, model hem azınlık sınıfı daha iyi öğrenir hem de İK kararları daha güvenilir hale gelir.
Senaryo 1 – SMOTE ile Azınlık Sınıfını Arttırma (Oversampling)
Bir şirkette 950 çalışan ve 50 ayrılan olduğunu düşünelim. Model bu veriyi olduğu gibi kullandığında, ayrılan çalışanları temsil eden sınıf çok küçük olduğu için bu davranışları yeterince öğrenemez. SMOTE yöntemi ise azınlık sınıfına (ayrılanlar) yapay fakat istatistiksel olarak tutarlı örnekler ekleyerek veriyi dengeler ve modelin ayrılma sinyallerini daha iyi yakalamasını sağlar. Ancak bu yöntem her zaman tercih edilmez; çünkü üretilen yapay örnekler gerçek çalışan davranışını bozabilir, overfitting riskini artırabilir ve özellikle ayrılma oranının düşük olduğu yapılarda modeli gerçek dünyadan uzaklaştırarak gereksiz sayıda ayrılma alarmı üretmesine yol açabilir. Ancak SMOTE, her dengesiz İK verisi için standart bir çözüm değil; ayrılma davranışının örüntü içerdiği, erken risk tespitinin hedeflendiği ve model çıktısının destekleyici karar mekanizmalarında kullanıldığı durumlarda tercih edilmesi gereken bir tekniktir.
Senaryo 2 – Class Weight: Az Sınıfa Daha Fazla Ağırlık Verme
Bazı durumlarda veri çoğaltmak yerine, modelin iç ayarları değiştirilir. Azınlık sınıfına daha yüksek bir weight verilir. Bu sayede model az sınıfı daha ciddiye alır.
Bu yaklaşım özellikle; Performans değerlendirme dönemleri, Ücret artış döngüleri, Vardiya, iş yükü veya adalet algısının değiştiği zamanlar vb.  gibi belirli dönemlerde artan istifa risklerini daha gerçekçi biçimde modellemeye yardımcı olur. 
Ancak class weight yaklaşımı da her senaryo için ideal değildir. Azınlık sınıfına verilen ağırlık çok yükseltildiğinde model aşırı duyarlı hale gelebilir ve bu durum, gerçekte ayrılma riski düşük olan çalışanların da riskli olarak etiketlenmesine yol açabilir. Bu nedenle ağırlıkların dikkatli ayarlanması ve model çıktılarının iş bağlamında yorumlanması gerekir. 
Bu yaklaşım özellikle Logistic Regression, Random Forest, XGBoost gibi algoritmalar kullanıldığında, SMOTE’a göre daha güvenli ve daha sade bir çözüm sunar.
Senaryo 3 – Segment Bazlı Modelleme 
Bazı durumlarda dengesiz veri problemi, tek bir modelle çözülemeyecek kadar yapısaldır. Çünkü şirket genelinde bakıldığında çalışanlar tek tip davranmaz; departmanlar, roller veya lokasyonlar arasında ayrılma dinamikleri ciddi biçimde farklılaşabilir. Bu gibi durumlarda tüm şirket için tek bir model kurmak, önemli sinyallerin kaybolmasına neden olabilir.


Örneğin bir şirkette: IT departmanında ayrılma oranı %20, Satışta %12, Operasyonda ise yalnızca %5 seviyesindeyse,
bu üç grubun aynı model altında değerlendirilmesi, özellikle ayrılma oranı düşük olan segmentlerde modelin davranışı bastırmasına yol açar. Segment bazlı modelleme yaklaşımında ise her departman veya anlamlı çalışan grubu için ayrı modeller kurularak, her segmentin kendi gerçekliği içinde öğrenmesi sağlanır.
Bu sayede:
•    Departmanlara özgü ayrılma nedenleri (Örneğin; IT’de iş yükü, satışta prim yapısı, operasyonda vardiya düzeni) daha net ortaya çıkar,
•    Tek ve genel bir modelin kaçırdığı detaylı örüntüler görünür hale gelir,
•    Her segmente özel ve daha hedefli tutundurma (retention) stratejileri geliştirilebilir.


Segment bazlı modelleme, dengesiz veri problemini doğrudan “sayısal dengeleme” ile değil, iş bağlamını doğru ayırarak çözmeyi hedefler. Böylece model, birbirinden çok farklı davranış gösteren çalışan gruplarını tek bir ortalamaya sıkıştırmak yerine, her grubu kendi koşulları içinde anlamlandırır.
Sonuç olarak; 
İK analitiğinde imbalanced data (dengesiz veri) konusu yalnızca teknik bir modelleme problemi değildir; doğrudan İK’nın aldığı kararların doğruluğunu, zamanlamasını ve maliyetini etkileyen kritik bir faktördür. Dengesiz veriyle kurulan modeller çoğu zaman istatistiksel olarak “başarılı” görünse de, ayrılma riski taşıyan çalışanları yakalayamıyorsa bu başarı İK açısından gerçek bir değer üretmez.
Bu nedenle, yüksek doğruluk (accuracy) tek başına yeterli bir gösterge değildir. İK analitiğinde asıl önemli olan;
•    Gerçekten riskli olan çalışanları ne ölçüde yakalayabildiğimiz (Recall),
•    Riskli dediğimiz kişilerin ne kadarının gerçekten risk taşıdığı (Precision),
•    Bu iki metriğin dengeli performansını gösteren (F1-Score),
•    Ve tüm bu metriklerin Confusion Matrix üzerinden birlikte değerlendirilmesidir.
F1-Score burada kritik bir denge göstergesidir.
Modelin yalnızca “kaçırmama” ya da yalnızca “yanlış alarm üretmeme” performansını değil; bu iki boyut arasında ne kadar dengeli çalıştığını ortaya koyar.


SMOTE, class weight ve segment bazlı modelleme gibi yaklaşımlar, doğru senaryoda ve doğru amaçla kullanıldığında modeli matematiksel olarak iyileştirmenin ötesine geçerek İK için anlamlı ve aksiyona dönüşebilir içgörüler üretir.

Buradaki kritik nokta, tek bir “doğru teknik” aramak değil; şirketin yapısına, ayrılma dinamiklerine ve alınacak İK kararlarının niteliğine en uygun yaklaşımı seçmektir.
İyi bir İK analitiği modeli;
•    Sadece doğru tahmin yapan değil,
•    İK’nın gerçekten müdahale edebileceği kişileri zamanında ve güvenilir şekilde işaretleyen,
•    Karar süreçlerini destekleyen ve kaynakların doğru yere yönlendirilmesini sağlayan bir modeldir.
Bu bakış açısıyla ele alınan imbalanced data problemleri, İK analitiğini “raporlama yapan” bir yapıdan çıkarıp, stratejik karar destek mekanizmasına dönüştürür.

Not:Bu yazı HrAnalitik.com üzerinde yayınlanmış; Zeynep Taner tarafından yazılmıştır. Yazarımıza değerli katkıları için teşekkür ediyoruz.

Sizler de insan analitiği başlığında yazılarınızı info@HrAnalitik.com adresine Editor konu başlığı ile iletebilirsiniz. 

Devamını Oku

İK’da Yapay Zeka ve İnsan Analitiğinin Geleceği: Ali Tuncel & Emre Tuna Aydın Yorumluyor!

26-12-2025 Üretken Yapay Zeka HrAnalitik.com

 İnsan Kaynakları dünyası, son yılların en büyük kırılım noktalarından birini yaşıyor. Artık sadece "çalışan memnuniyeti" veya "bordro süreçleri"ni konuşmuyoruz. Masada çok daha büyük bir konu var: Üretken Yapay Zeka (Generative AI) ve verinin stratejik gücü.

Geçtiğimiz günlerde, veri analitiği dünyasının deneyimli isimlerinden  Ali Tuncel ile Bnc Insight kurucusu Emre Tuna Aydın, İK’nın bu yeni dönemini masaya yatırdı. "Gelecek Veride" mottomuzun altını dolduran bu sohbette; veriden değer üretmek, yapay zekanın iş tanımlarını nasıl değiştirdiği ve analitik projelerin neden başarısız olduğu gibi kritik başlıkları ele aldılar.

Eğer "İK Analitiği sadece raporlama mıdır?" diye soruyorsanız, yanıtımız net: Hayır, insan analitiği sadece ik ile ilgili değil ve asıl amacı insanı anlam'tır.

İşte yayından öne çıkan başlıklar ve İK profesyonelleri için stratejik notlar:

1. Yapay Zeka: Bir Tehdit mi, Süper Güç mü?

Sohbetin görece en iyi noktalarından biri, Üretken Yapay Zeka'nın (GenAI) İK süreçlerine entegrasyonuydu. Yapay zeka artık sadece kod yazanların tekelinde değil; İK profesyonellerinin de günlük asistanı.

Ali Tuncel’in de vurguladığı gibi, yapay zeka bir "sihirli değnek" değil, doğru soruları sorabilenlerin elinde bir süper güç. İşe alım metinlerinin yazılmasından, çalışan deneyimi tasarımlarına kadar birçok alanda verimliliği artırıyor. Ancak burada kritik bir uyarı var: İnsan gözetimi (Human in the loop). Teknoloji ne kadar gelişirse gelişsin, nihai kararda insan dokunuşu ve etiği, güvenliği sağlamak için orada olmak zorunda.

2. "Soru mu Önemli, Sorun mu?"

Analitik projelerinde en sık yapılan hata nedir? Genellikle eldeki veriye bakıp "Buradan ne çıkarabiliriz?" diye sormak. Oysa Emre Tuna Aydın’ın da belirttiği gibi, süreç "Doğru Soruyu Sormak" ile başlamalı.

Bir İK projesine başlarken "Elimizde hangi veriler var?" demek yerine, "Şirketin hangi problemini çözmeye çalışıyoruz?" demeliyiz. Yanlış sorular, mükemmel veri setleriyle bile yanlış cevaplara götürür. İK Analitiği, bir Excel tablosu değil, bir problem çözme sanatıdır.

3. Veriden size bir mesaj var: Tükenmişlik (Burnout)

Veri sadece rakamlardan ibaret değildir; bazen bir çalışanın sessiz çığlığını da veriden duyabilirsiniz. Yayında verilen çarpıcı örneklerden biri, izin dönemindeki çalışma verileriydi.

Bir çalışan izinli olduğu halde sisteme giriş yapıyor, maillerine dönüyorsa; bu veri bize sadece "çalışkanlığı" değil, potansiyel bir tükenmişlik (burnout) riskini de haber verir. İK Analitiği işte tam burada devreye giriyor: Bir çalışan işten ayrılmadan veya tükenmeden önce sinyalleri yakalayabilmek ve proaktif önlem alabilmek.

4. Geleceğin Yetkinliği: Merak

Teknik yetkinlikler (Python, SQL, PowerBI) elbette önemli. Ancak yayının ortak paydası, geleceğin İK liderlerini ayrıştıracak olan yetkinliğin "Merak"  ve "Öğrenme Çevikliiği" olduğuydu.

  • "Bu veri neden böyle?"

  • "Bu trendin arkasındaki kök neden ne?"

  • "Organizasyon şemasındaki bu boşluk performansı nasıl etkiliyor?"

Bu soruları sorabilen, veriyi sadece bir raporlama aracı olarak değil, bir hikaye anlatıcısı olarak gören İK profesyonelleri, masada stratejik bir ortak olarak yerini alacak.

 

Bnc Insight ve HrAnalitik olarak Ali Tuncel ve Emre Tuna Aydın’ın gerçekleştirdiği, sektöre yön veren bu keyifli sohbetin tamamını izlemek, global trendleri ve Türkiye'deki uygulamaları derinlemesine öğrenmek için aşağıdaki videoya göz atabilirsiniz.

 

✨✨✨✨✨✨

 

Yayının tamamını izlemek veya ilginizi çeken spesifik bir konuya gitmek için aşağıdaki tıklanabilir zaman damgalarını kullanabilirsiniz:

 

 

02:45 ✨Emre Tuna Aydın: İnsanı Veriyle Anlamak ve BncInsight/HrAnalitik.com  https://youtu.be/aSVosFRwrZA?t=165

05:21 ✨Yapay Zeka: Bir Kırılım Çağı ve İK'ya Etkileri  https://youtu.be/aSVosFRwrZA?t=321

08:54 ✨ İK'da Üretken Yapay Zeka Kullanım Alanları  https://youtu.be/aSVosFRwrZA?t=534

10:23 ✨Canlı Organizasyon Tasarımı ve Veri Odaklılık  https://youtu.be/aSVosFRwrZA?t=623

25:32 ✨Veri Kalitesi ve "Mükemmel Veri" Tuzağı  https://youtu.be/aSVosFRwrZA?t=1532

35:40 ✨Örnek Vaka: Ön Lisans Mezunları Neden Daha İyi Satış Yapıyor?  https://youtu.be/aSVosFRwrZA?t=2140

45:05 ✨İK Projelerinde Soru mu Önemli Sorun mu? Yeni Sütun Avı.https://youtu.be/aSVosFRwrZA?t=2705

01:06 ✨Analitik Projeleri Başarısız Kılan 3 Temel Neden  https://youtu.be/aSVosFRwrZA?t=3974

01:14 ✨ İnsan Analitiği Sadece İK'nın İşi mi? https://youtu.be/aSVosFRwrZA?t=4443

 

Devamını Oku