Kaggle 대회
[Santander Product Recommendation] 데이터 탐색하기 ② : Y
사자처럼 우아하게
2019. 12. 22. 21:42
Santander Product Recommendation 대회의 Target 값의 분포를 확인해보겠습니다.(타겟변수 총 24개)
Training 데이터를 기반으로 각각의 분포를 확인해보면,
- ind_cco_fin_ult1 상품의 구매가 가장 많았고
- ind_ahor_fin_ult1, ind_aval_fin_ult1 상품의 구매가 가장 적었습니다.
추후 모델링을 할 때는 구매가 거의 없었던 ind_ahor_fin_ult1, ind_aval_fin_ult1 Target 값은 제외하고 하겠습니다.
# Target value 분포 확인하기
cols = ['ind_ahor_fin_ult1', 'ind_aval_fin_ult1',
'ind_cco_fin_ult1', 'ind_cder_fin_ult1',
'ind_cno_fin_ult1', 'ind_ctju_fin_ult1',
'ind_ctma_fin_ult1', 'ind_ctop_fin_ult1',
'ind_ctpp_fin_ult1', 'ind_deco_fin_ult1',
'ind_deme_fin_ult1', 'ind_dela_fin_ult1',
'ind_ecue_fin_ult1', 'ind_fond_fin_ult1',
'ind_hip_fin_ult1', 'ind_plan_fin_ult1',
'ind_pres_fin_ult1', 'ind_reca_fin_ult1',
'ind_tjcr_fin_ult1', 'ind_valo_fin_ult1',
'ind_viv_fin_ult1', 'ind_nomina_ult1',
'ind_nom_pens_ult1', 'ind_recibo_ult1']
target_counts = df[cols].astype('float64').sum(axis=0)
#print(target_counts)
plt.figure(figsize=(8,4))
sns.barplot(target_counts.index, target_counts.values, alpha=0.8)
plt.xlabel('Product Name', fontsize=12)
plt.ylabel('Number of Occurrences', fontsize=12)
plt.xticks(rotation='vertical')
plt.show()
target_counts/df.shape[0]
* Reference
- https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-v3-0