본문 바로가기
Kaggle 대회

[ASHRAE - Great Energy Predictor III] 데이터 파악하기

by 사자처럼 우아하게 2019. 12. 5.

이번에는 ASHRAE 대회에서 제공된 데이터 구조 및 컬럼 속성 에 대해 간단하게 파악해보고자 합니다.

보통 저는 캐글 대회를 시작하면 공개 Kernel로가서 Vote 수가 가장 많은 데이터 시각화 또는 Starter Code라고 적혀 있는 커널을 고르고 필사를 하면서 데이터의 구조와 컬럼 속성을 파악합니다. 

아래 작성된 내용은 공개커널1 / 공개커널2 을 참조하여 작성했습니다.

 

ㅁ 구조 및 속성

 - 데이터는 세 종류로 제공됩니다. 이 중 타겟 컬럼은 Train 테이블의 "meter_reading" 값이며 "meter" 컬럼에 의해

    Electricity/Chilledwater/Steam/Hotwater 로 측정 영역이 구분됩니다. 

 

날씨 정보 / 건물 정보 / 건물 전력측정치(Target)    

ㅁ EDA(Exploratory Data Analysis)

1. Train 데이터

    - 아래 그래프의 갈색 : 0 이 아닌 값 / 하늘색 : 0 / 흰색 : Null 값을 의미하며 meter 값을 기준으로 Trellis하여

      보여주고 있습니다.  (X-Value : 시간(Timestamp,2016~), Y-Value : 빌딩 ID)

      이 그래프로 meter0(electricity) 가 Null이 가장 적다는 점, meter0 =0 인 값이 초반에 많다는 점 등을 확인할 수 

      있습니다. 여기서 확인된 내용은 추후에 Feature Engineering 수행할 때 반영할 예정입니다.

2. Weather 데이터

  - 빌딩이 속해있는 위치에 해당하는 날씨정보를 나타내는 데이터 입니다. 많은 Null Value를 어떻게 처리해주는 지가

    점수를 올리는 포인트 중에 하나입니다. Kaggle 공개 커널을 보면 Filling_weather 이라는 함수를 정의해서 사용하는

    커널이 많이 있으니 참고하면 좋을 것 같습니다.

 

 3. Building 데이터

     - 빌딩에 대한 정보가 포함된 데이터로 Train 데이터의 타겟값(Meter_reading) 과 Correalation을 보면 

        Floor_count>Square_feet>year_built 순으로 상관관계가 있는 것으로 확인되며, 이중 square_feet의 경우

        한쪽으로 Skew 된 경향이 있어 추후 FE(Feature Engineering) 수행 시 Log1p를 씌워주는 것이 좋습니다.

        ※ 참조 : https://www.kaggle.com/jaseziv83/a-deep-dive-eda-into-all-variables

 

 

 

댓글