본문 바로가기

캐글14

[ASHRAE - Great Energy Predictor III] 데이터 파악하기 이번에는 ASHRAE 대회에서 제공된 데이터 구조 및 컬럼 속성 에 대해 간단하게 파악해보고자 합니다. 보통 저는 캐글 대회를 시작하면 공개 Kernel로가서 Vote 수가 가장 많은 데이터 시각화 또는 Starter Code라고 적혀 있는 커널을 고르고 필사를 하면서 데이터의 구조와 컬럼 속성을 파악합니다. 아래 작성된 내용은 공개커널1 / 공개커널2 을 참조하여 작성했습니다. ㅁ 구조 및 속성 - 데이터는 세 종류로 제공됩니다. 이 중 타겟 컬럼은 Train 테이블의 "meter_reading" 값이며 "meter" 컬럼에 의해 Electricity/Chilledwater/Steam/Hotwater 로 측정 영역이 구분됩니다. 날씨 정보 / 건물 정보 / 건물 전력측정치(Target) ㅁ EDA(Ex.. 2019. 12. 5.
[Santander Product Recommendation] 대회 소개 스페인 은행 Santander 가 Kaggle을 통해 개최한 "Santander Product Recommendation" 이라는 대회를 리뷰하며 데이터 분석 방법을 공유 하고 수상자의 노하우를 벤치마킹 하고자 합니다. 포스팅은 분석 단계를 쪼개서 최대한 디테일하게 분석 내용을 공유하는 방향으로 진행될 예정입니다. ㅁ 대회 및 데이터 소개 - 일정 기간(2015.01~2016.05) 동안의 고객 특성, 행동 데이터를 기반으로 다음달(2016.06)에 어떤 상품을 구매할 것인지 예측하는 대회 - 총 24개의 독립 변수(X) 와 24개의 종속 변수(Y)로 이루어져 있는 Multiclass & Multilabel 분류 분제 ㅁ 평가 함수 리뷰 - 데이터 분석하기 앞서 먼저 평가 함수(Evaluation fun.. 2019. 11. 25.