Santander Product Recommendation 대회의 Target 값의 분포를 확인해보겠습니다.(타겟변수 총 24개)
Training 데이터를 기반으로 각각의 분포를 확인해보면,
- ind_cco_fin_ult1 상품의 구매가 가장 많았고
- ind_ahor_fin_ult1, ind_aval_fin_ult1 상품의 구매가 가장 적었습니다.
추후 모델링을 할 때는 구매가 거의 없었던 ind_ahor_fin_ult1, ind_aval_fin_ult1 Target 값은 제외하고 하겠습니다.
# Target value 분포 확인하기
cols = ['ind_ahor_fin_ult1', 'ind_aval_fin_ult1',
'ind_cco_fin_ult1', 'ind_cder_fin_ult1',
'ind_cno_fin_ult1', 'ind_ctju_fin_ult1',
'ind_ctma_fin_ult1', 'ind_ctop_fin_ult1',
'ind_ctpp_fin_ult1', 'ind_deco_fin_ult1',
'ind_deme_fin_ult1', 'ind_dela_fin_ult1',
'ind_ecue_fin_ult1', 'ind_fond_fin_ult1',
'ind_hip_fin_ult1', 'ind_plan_fin_ult1',
'ind_pres_fin_ult1', 'ind_reca_fin_ult1',
'ind_tjcr_fin_ult1', 'ind_valo_fin_ult1',
'ind_viv_fin_ult1', 'ind_nomina_ult1',
'ind_nom_pens_ult1', 'ind_recibo_ult1']
target_counts = df[cols].astype('float64').sum(axis=0)
#print(target_counts)
plt.figure(figsize=(8,4))
sns.barplot(target_counts.index, target_counts.values, alpha=0.8)
plt.xlabel('Product Name', fontsize=12)
plt.ylabel('Number of Occurrences', fontsize=12)
plt.xticks(rotation='vertical')
plt.show()
target_counts/df.shape[0]
* Reference
- https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-v3-0
'Kaggle 대회' 카테고리의 다른 글
[Santander Product Recommendation] Baseline 구축하기② (0) | 2019.12.25 |
---|---|
[Santander Product Recommendation] Baseline 구축하기① (0) | 2019.12.25 |
[Santander Product Recommendation] 데이터 탐색하기 ① : X (0) | 2019.12.19 |
[2019 3rd ML month with KaKR] 대회 참가 후기(삽질의 기록) (0) | 2019.12.19 |
[2019 3rd ML month with KaKR] 대회 소개 (1) | 2019.12.18 |
댓글