본문 바로가기
Kaggle 대회

[Santander Product Recommendation] 데이터 탐색하기 ① : X

by 사자처럼 우아하게 2019. 12. 19.

 

Santander Product Recommendation 대회의 경우 총 24개의 X 인자와 24개이 Y 인자로 구성되어 있습니다.

이번 포스팅에서는 X/Y 인자를 나누어서 데이터 특징을 퀵하게 파악해보도록 하겠습니다.

일부 데이터는 다소 지저분하게 기록되어 있습니다(1.0 or 1). 이를 Cleaning 하는 작업은 Baseline 구축 편에서

이야기 하도록 하겠습니다.

 

ㅁ 데이터 탐색하기(X)

1. fecha_dato : 월별 날짜 데이터로 2015년 1월~6월까지 데이터가 적고 점차 늘어남.

2. Ind_empleado(고용여부)
   - A : active / B ex employed(전직) / F filial  / N not employee / P pasive

   - N(Not employee) : 99.7%

3. pais_residencia(고객이 거주하는 국가 정보)

   - 99.3% 고객이 스페인에 거주하고 그 다음 프랑스, 아르헨티나 순으로 거주함.

4. sexo  : 여자(V) 54% > 남자(H) 45%

5. age : 20대 > 40대 >30대 > 50대 이상 > 20대 미만 순으로 고객이 많다.

6. fecha_alta(고객 첫 계약 날짜)

    - 최근 5년 에 빈도가 높음

7. ind_neuvo (1: 최근 6개월 신규 고객)

   - Training 데이터 : 최근 6개월 신규 고객 6% // Test 데이터 : 신규 고객 3%

 

8. antiguedad(은행 거래 누적 기간,월)

    - 공백과  Null 값이 다수 포함되어 있어 정제가 필요함

     - 우하향 하는 그래프인 걸로 보아 최근에 가입자가 많이 늘어난 것으로 추정

9. 나머지 

 

댓글