Santander Product Recommendation 대회의 경우 총 24개의 X 인자와 24개이 Y 인자로 구성되어 있습니다.
이번 포스팅에서는 X/Y 인자를 나누어서 데이터 특징을 퀵하게 파악해보도록 하겠습니다.
일부 데이터는 다소 지저분하게 기록되어 있습니다(1.0 or 1). 이를 Cleaning 하는 작업은 Baseline 구축 편에서
이야기 하도록 하겠습니다.
ㅁ 데이터 탐색하기(X)
1. fecha_dato : 월별 날짜 데이터로 2015년 1월~6월까지 데이터가 적고 점차 늘어남.
2. Ind_empleado(고용여부)
- A : active / B ex employed(전직) / F filial / N not employee / P pasive
- N(Not employee) : 99.7%
3. pais_residencia(고객이 거주하는 국가 정보)
- 99.3% 고객이 스페인에 거주하고 그 다음 프랑스, 아르헨티나 순으로 거주함.
4. sexo : 여자(V) 54% > 남자(H) 45%
5. age : 20대 > 40대 >30대 > 50대 이상 > 20대 미만 순으로 고객이 많다.
6. fecha_alta(고객 첫 계약 날짜)
- 최근 5년 에 빈도가 높음
7. ind_neuvo (1: 최근 6개월 신규 고객)
- Training 데이터 : 최근 6개월 신규 고객 6% // Test 데이터 : 신규 고객 3%
8. antiguedad(은행 거래 누적 기간,월)
- 공백과 Null 값이 다수 포함되어 있어 정제가 필요함
- 우하향 하는 그래프인 걸로 보아 최근에 가입자가 많이 늘어난 것으로 추정
9. 나머지
'Kaggle 대회' 카테고리의 다른 글
[Santander Product Recommendation] Baseline 구축하기① (0) | 2019.12.25 |
---|---|
[Santander Product Recommendation] 데이터 탐색하기 ② : Y (0) | 2019.12.22 |
[2019 3rd ML month with KaKR] 대회 참가 후기(삽질의 기록) (0) | 2019.12.19 |
[2019 3rd ML month with KaKR] 대회 소개 (1) | 2019.12.18 |
[ASHRAE - Great Energy Predictor III] Best Weight 찾기 (0) | 2019.12.15 |
댓글