본문 바로가기
Kaggle 대회

[ASHRAE - Great Energy Predictor III] 대회 소개

by 사자처럼 우아하게 2019. 12. 5.

 

이번에 리뷰할 대회는 ASHRAE(어슈래)에서 주최한 ASHRAE - Great Energy Predictor III 입니다.

※ ASHRAE : The American Society of Heating, Refrigerating and Air-Conditioning Engineers, 미국의 공조냉동공학회

 

세계 각국의 1000개가 넘는 건물에서 생성된 3년간의 Electricity/Chilledwater/Steam/Hotwater 영역에서의 사용량을

기반으로 모델링을 하는 대회로 Input 인자로는 빌딩 정보, 날씨 정보가 주어졌습니다.

참고로 이 대회는 Data Leakage가 있어 참가자들 사이에서 말이 많아 주최측에서 Private Score를 매길 때 Leakage된

건물 Id는 제외할 것이라고 발표하기도 했습니다.

 

ㅁ 대회 소개

    - 2016년 데이터로 모델링하여  17년 1월~ 18.6월 까지의 에너지 사용량을 예측하는 대회로 Building_meta 데이터와

   weather 데이터가 함께 주어졌습니다. Building의 위치 정보를 기반으로 날씨 정보를 조인하고 Null값도 처리합니다.

   앞서 이야기한대로 이 대회는 Data Leakage가 존재합니다. 참가자들은 Private에 leakage 된 빌딩 정보는 제외하겠

   다는 발표를 보고 Leakage 데이터를 모델링 성능 향상에만 활용하고 Inference 단계에서는 활용하지 않는 상황입니다.

 

ㅁ 평가 함수 

    - RMSLE(Root Mean Square Logarithmic Error)는 RMSE(Root Mean Square Error)와 유사하지만 실제값과 예측값

     에 Log를 취한 것이 추가된 입니다. 이로 인해 RMSE에 비해 과대평가된 것 보다 과소평가 된 것에 더 큰 페널티를 

      주게 됩니다.  예를 들어 , 

      ① 예측값 = 600, 실제값 = 100  → RMSE = 400, RMSE = 0.5108

      ② 예측값 = 1400, 실제값 = 1000  → RMSE = 400, RMSE = 0.3365

      즉, 값을 작게 예측할 수록 오차가 크게 작용하므로 이를 유념하여 분석해야 합니다.

 

 

* Reference 

   - https://dacon.io/user1/41382#

댓글