본문 바로가기

캐글분석3

[Santander Product Recommendation] 데이터 탐색하기 ② : Y Santander Product Recommendation 대회의 Target 값의 분포를 확인해보겠습니다.(타겟변수 총 24개) Training 데이터를 기반으로 각각의 분포를 확인해보면, - ind_cco_fin_ult1 상품의 구매가 가장 많았고 - ind_ahor_fin_ult1, ind_aval_fin_ult1 상품의 구매가 가장 적었습니다. 추후 모델링을 할 때는 구매가 거의 없었던 ind_ahor_fin_ult1, ind_aval_fin_ult1 Target 값은 제외하고 하겠습니다. # Target value 분포 확인하기 cols = ['ind_ahor_fin_ult1', 'ind_aval_fin_ult1', 'ind_cco_fin_ult1', 'ind_cder_fin_ult1', 'in.. 2019. 12. 22.
[Santander Product Recommendation] 데이터 탐색하기 ① : X Santander Product Recommendation 대회의 경우 총 24개의 X 인자와 24개이 Y 인자로 구성되어 있습니다. 이번 포스팅에서는 X/Y 인자를 나누어서 데이터 특징을 퀵하게 파악해보도록 하겠습니다. 일부 데이터는 다소 지저분하게 기록되어 있습니다(1.0 or 1). 이를 Cleaning 하는 작업은 Baseline 구축 편에서 이야기 하도록 하겠습니다. ㅁ 데이터 탐색하기(X) 1. fecha_dato : 월별 날짜 데이터로 2015년 1월~6월까지 데이터가 적고 점차 늘어남. 2. Ind_empleado(고용여부) - A : active / B ex employed(전직) / F filial / N not employee / P pasive - N(Not employee) : 9.. 2019. 12. 19.
[Santander Product Recommendation] 대회 소개 스페인 은행 Santander 가 Kaggle을 통해 개최한 "Santander Product Recommendation" 이라는 대회를 리뷰하며 데이터 분석 방법을 공유 하고 수상자의 노하우를 벤치마킹 하고자 합니다. 포스팅은 분석 단계를 쪼개서 최대한 디테일하게 분석 내용을 공유하는 방향으로 진행될 예정입니다. ㅁ 대회 및 데이터 소개 - 일정 기간(2015.01~2016.05) 동안의 고객 특성, 행동 데이터를 기반으로 다음달(2016.06)에 어떤 상품을 구매할 것인지 예측하는 대회 - 총 24개의 독립 변수(X) 와 24개의 종속 변수(Y)로 이루어져 있는 Multiclass & Multilabel 분류 분제 ㅁ 평가 함수 리뷰 - 데이터 분석하기 앞서 먼저 평가 함수(Evaluation fun.. 2019. 11. 25.