본문 바로가기
Kaggle 대회

[Santander Product Recommendation] 데이터 탐색하기 ② : Y

by 사자처럼 우아하게 2019. 12. 22.

Santander Product Recommendation 대회의 Target 값의 분포를 확인해보겠습니다.(타겟변수 총 24개)

 

 Training 데이터를 기반으로 각각의 분포를 확인해보면, 

   - ind_cco_fin_ult1 상품의 구매가 가장 많았고

   - ind_ahor_fin_ult1, ind_aval_fin_ult1 상품의 구매가 가장 적었습니다.

 

추후 모델링을 할 때는 구매가 거의 없었던 ind_ahor_fin_ult1, ind_aval_fin_ult1 Target 값은 제외하고 하겠습니다.

 

# Target value 분포 확인하기

cols = ['ind_ahor_fin_ult1', 'ind_aval_fin_ult1', 
         'ind_cco_fin_ult1', 'ind_cder_fin_ult1',
         'ind_cno_fin_ult1', 'ind_ctju_fin_ult1',
         'ind_ctma_fin_ult1', 'ind_ctop_fin_ult1',
         'ind_ctpp_fin_ult1', 'ind_deco_fin_ult1',
         'ind_deme_fin_ult1', 'ind_dela_fin_ult1',
         'ind_ecue_fin_ult1', 'ind_fond_fin_ult1',
         'ind_hip_fin_ult1', 'ind_plan_fin_ult1',
         'ind_pres_fin_ult1', 'ind_reca_fin_ult1',
         'ind_tjcr_fin_ult1', 'ind_valo_fin_ult1',
         'ind_viv_fin_ult1', 'ind_nomina_ult1',
         'ind_nom_pens_ult1', 'ind_recibo_ult1']
target_counts = df[cols].astype('float64').sum(axis=0)
#print(target_counts)
plt.figure(figsize=(8,4))
sns.barplot(target_counts.index, target_counts.values, alpha=0.8)
plt.xlabel('Product Name', fontsize=12)
plt.ylabel('Number of Occurrences', fontsize=12)
plt.xticks(rotation='vertical')
plt.show()

target_counts/df.shape[0]

 

* Reference

   - https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-v3-0

댓글