[Santander Product Recommendation] 데이터 탐색하기 ① : X

Santander Product Recommendation 대회의 경우 총 24개의 X 인자와 24개이 Y 인자로 구성되어 있습니다.

이번 포스팅에서는 X/Y 인자를 나누어서 데이터 특징을 퀵하게 파악해보도록 하겠습니다.

일부 데이터는 다소 지저분하게 기록되어 있습니다(1.0 or 1). 이를 Cleaning 하는 작업은 Baseline 구축 편에서

이야기 하도록 하겠습니다.

ㅁ 데이터 탐색하기(X)

1. fecha_dato : 월별 날짜 데이터로 2015년 1월~6월까지 데이터가 적고 점차 늘어남.

2. Ind_empleado(고용여부)
- A : active / B ex employed(전직) / F filial / N not employee / P pasive

- N(Not employee) : 99.7%

3. pais_residencia(고객이 거주하는 국가 정보)

- 99.3% 고객이 스페인에 거주하고 그 다음 프랑스, 아르헨티나 순으로 거주함.

4. sexo : 여자(V) 54% > 남자(H) 45%

5. age : 20대 > 40대 >30대 > 50대 이상 > 20대 미만 순으로 고객이 많다.

6. fecha_alta(고객 첫 계약 날짜)

- 최근 5년 에 빈도가 높음

7. ind_neuvo (1: 최근 6개월 신규 고객)

- Training 데이터 : 최근 6개월 신규 고객 6% // Test 데이터 : 신규 고객 3%

8. antiguedad(은행 거래 누적 기간,월)

- 공백과 Null 값이 다수 포함되어 있어 정제가 필요함

- 우하향 하는 그래프인 걸로 보아 최근에 가입자가 많이 늘어난 것으로 추정

9. 나머지

[Santander Product Recommendation] Baseline 구축하기① (0)	2019.12.25
[Santander Product Recommendation] 데이터 탐색하기 ② : Y (0)	2019.12.22
[2019 3rd ML month with KaKR] 대회 참가 후기(삽질의 기록) (0)	2019.12.19
[2019 3rd ML month with KaKR] 대회 소개 (1)	2019.12.18
[ASHRAE - Great Energy Predictor III] Best Weight 찾기 (0)	2019.12.15

사자처럼 우아하게