스페인 은행 Santander 가 Kaggle을 통해 개최한 "Santander Product Recommendation" 이라는 대회를
리뷰하며 데이터 분석 방법을 공유 하고 수상자의 노하우를 벤치마킹 하고자 합니다.
포스팅은 분석 단계를 쪼개서 최대한 디테일하게 분석 내용을 공유하는 방향으로 진행될 예정입니다.
ㅁ 대회 및 데이터 소개
- 일정 기간(2015.01~2016.05) 동안의 고객 특성, 행동 데이터를 기반으로 다음달(2016.06)에 어떤 상품을
구매할 것인지 예측하는 대회
- 총 24개의 독립 변수(X) 와 24개의 종속 변수(Y)로 이루어져 있는 Multiclass & Multilabel 분류 분제
ㅁ 평가 함수 리뷰
- 데이터 분석하기 앞서 먼저 평가 함수(Evaluation function)를 확실히 이해하는 것이 중요합니다. 최근에는
과적합(Overfit)을 줄이기 위한 방법들(ex,early stopping)을 사용할 때 평가 함수로 기본 Loss Function 이
아닌 그 대회의 평가 함수를 사용하는 경우가 많습니다.
- 이 대회는 MAP@7(Mean Average Precision) 이라는 함수를 활용합니다. 이는 24개 Target Variables 중
상품 구매 가능성이 가장 높은 순서대로 상위 7개를 선택하고 각 고객마다 정답여부(Precision)을 평가하여
전체 평균하여 계산됩니다.
'Kaggle 대회' 카테고리의 다른 글
[ASHRAE - Great Energy Predictor III] Model 확장 (0) | 2019.12.08 |
---|---|
[ASHRAE - Great Energy Predictor III] Model 성능 향상시키기 (0) | 2019.12.08 |
[ASHRAE - Great Energy Predictor III] Baseline 구축하기 (0) | 2019.12.07 |
[ASHRAE - Great Energy Predictor III] 데이터 파악하기 (0) | 2019.12.05 |
[ASHRAE - Great Energy Predictor III] 대회 소개 (0) | 2019.12.05 |
댓글