이번에 리뷰할 대회는 ASHRAE(어슈래)에서 주최한 ASHRAE - Great Energy Predictor III 입니다.
※ ASHRAE : The American Society of Heating, Refrigerating and Air-Conditioning Engineers, 미국의 공조냉동공학회
세계 각국의 1000개가 넘는 건물에서 생성된 3년간의 Electricity/Chilledwater/Steam/Hotwater 영역에서의 사용량을
기반으로 모델링을 하는 대회로 Input 인자로는 빌딩 정보, 날씨 정보가 주어졌습니다.
참고로 이 대회는 Data Leakage가 있어 참가자들 사이에서 말이 많아 주최측에서 Private Score를 매길 때 Leakage된
건물 Id는 제외할 것이라고 발표하기도 했습니다.
ㅁ 대회 소개
- 2016년 데이터로 모델링하여 17년 1월~ 18.6월 까지의 에너지 사용량을 예측하는 대회로 Building_meta 데이터와
weather 데이터가 함께 주어졌습니다. Building의 위치 정보를 기반으로 날씨 정보를 조인하고 Null값도 처리합니다.
앞서 이야기한대로 이 대회는 Data Leakage가 존재합니다. 참가자들은 Private에 leakage 된 빌딩 정보는 제외하겠
다는 발표를 보고 Leakage 데이터를 모델링 성능 향상에만 활용하고 Inference 단계에서는 활용하지 않는 상황입니다.
ㅁ 평가 함수
- RMSLE(Root Mean Square Logarithmic Error)는 RMSE(Root Mean Square Error)와 유사하지만 실제값과 예측값
에 Log를 취한 것이 추가된 입니다. 이로 인해 RMSE에 비해 과대평가된 것 보다 과소평가 된 것에 더 큰 페널티를
주게 됩니다. 예를 들어 ,
① 예측값 = 600, 실제값 = 100 → RMSE = 400, RMSE = 0.5108
② 예측값 = 1400, 실제값 = 1000 → RMSE = 400, RMSE = 0.3365
즉, 값을 작게 예측할 수록 오차가 크게 작용하므로 이를 유념하여 분석해야 합니다.
* Reference
'Kaggle 대회' 카테고리의 다른 글
[ASHRAE - Great Energy Predictor III] Model 확장 (0) | 2019.12.08 |
---|---|
[ASHRAE - Great Energy Predictor III] Model 성능 향상시키기 (0) | 2019.12.08 |
[ASHRAE - Great Energy Predictor III] Baseline 구축하기 (0) | 2019.12.07 |
[ASHRAE - Great Energy Predictor III] 데이터 파악하기 (0) | 2019.12.05 |
[Santander Product Recommendation] 대회 소개 (0) | 2019.11.25 |
댓글