ING Bank Turkey Datathon - Top 10
Published:
TR
- Risk Limit doluluk oranları hesaplanmış ve bu oranlar kullanılarak risk bazlı bir segmentasyon yapılmıştır.
- Değişken seçimi yapılmıştır.
- Veride bulunan yaklaşık %20 oranındaki kayıp gözlemleri doldurmak için (id ve kredi durumu dışındaki tüm değişkenleri boş);
- Veri tamamen rastgele olacak şekilde sıralanmıştır.
- N-tane grup oluşturularak veri alt gruplara ayrılmış ve boş olan gözlemler içinde bulunduğu alt gruba ait ortalamalar kullanılarak doldurulmuştur.
- Modelleme için Random Forest kullanılmıştır.
ENG
- Calculated TL Risk and Limit Ratio and created a risk segmentation based on these ratios.
- Dropped unnecessary features.
- Dealt with missing values (20% of rows were completly missing exclude id and target variables).
- Sort data randomly and create n folds. Create subsets by folds and assign fold means to missing values.
- Used Random Forest for prediction.