본문 바로가기

데이터분석4

[ASHRAE - Great Energy Predictor III] Model 성능 향상시키기 이번에는 제가 Model 성능을 향상 시키기 위해 사용한 방법들을 살펴보겠습니다.(Base : LGBM) 이전 포스팅에서 리뷰했던 Baseline 모델의 성능은 LB = 1.3 입니다. (Github 코드 : 바로가기) 1. Feature Engineering : 1.3 → 1.13 - 앞선 Baseline에서 활용한 Feature 외에 몇 가지 Feature를 더 만들어서 반영했습니다. 아래 과정을 통해 LB Score를 0.17 향상시켰습니다. 첫번째는 isholiday 입니다. 건물의 전력소모량을 예측하는 문제이니 당연히 고려되어야 할 요소가 바로 휴일입니 다. 휴일에는 Education 이나 Office로 활용하는 건물은 휴일에는 전력 소모량이 줄어들 것이기 때문입니다. 비슷하게 생각하여 주말도 .. 2019. 12. 8.
[ASHRAE - Great Energy Predictor III] Baseline 구축하기 공개 커널을 필사하여 어느 정도 데이터에 대한 감을 잡았으니 이제 Baseline 모델을 구축하고자 합니다. 바닥부터 데이터만 가지고 모델링을 해가는 방법이 있지만 이렇게 할 경우 정말 많은 삽질을 해야하기에 저는 이미 참가자들 사이에서 검증된 공개 Baseline 커널을 가져와 조합하여 만들었습니다. github code : baseline / 공개커널1 / 공개커널2 Baseline은 LightGBM(LGBM)으로 구축하여 속도와 정확성을 한번에 잡아보고자 했으며, 추후에 모델 다양성을 확보하기 위해 Xgboost 와 Catboost로 확장하여 진행할 예정이고 시간이 된다면 Ridge, Lasso로도 확장해보고자 합니다. 데이터 용량이 매우 크기 때문에 LGBM으로 학습하여도 8 Core 16 Thr.. 2019. 12. 7.
[ASHRAE - Great Energy Predictor III] 데이터 파악하기 이번에는 ASHRAE 대회에서 제공된 데이터 구조 및 컬럼 속성 에 대해 간단하게 파악해보고자 합니다. 보통 저는 캐글 대회를 시작하면 공개 Kernel로가서 Vote 수가 가장 많은 데이터 시각화 또는 Starter Code라고 적혀 있는 커널을 고르고 필사를 하면서 데이터의 구조와 컬럼 속성을 파악합니다. 아래 작성된 내용은 공개커널1 / 공개커널2 을 참조하여 작성했습니다. ㅁ 구조 및 속성 - 데이터는 세 종류로 제공됩니다. 이 중 타겟 컬럼은 Train 테이블의 "meter_reading" 값이며 "meter" 컬럼에 의해 Electricity/Chilledwater/Steam/Hotwater 로 측정 영역이 구분됩니다. 날씨 정보 / 건물 정보 / 건물 전력측정치(Target) ㅁ EDA(Ex.. 2019. 12. 5.
[ASHRAE - Great Energy Predictor III] 대회 소개 이번에 리뷰할 대회는 ASHRAE(어슈래)에서 주최한 ASHRAE - Great Energy Predictor III 입니다. ※ ASHRAE : The American Society of Heating, Refrigerating and Air-Conditioning Engineers, 미국의 공조냉동공학회 세계 각국의 1000개가 넘는 건물에서 생성된 3년간의 Electricity/Chilledwater/Steam/Hotwater 영역에서의 사용량을 기반으로 모델링을 하는 대회로 Input 인자로는 빌딩 정보, 날씨 정보가 주어졌습니다. 참고로 이 대회는 Data Leakage가 있어 참가자들 사이에서 말이 많아 주최측에서 Private Score를 매길 때 Leakage된 건물 Id는 제외할 것이라고.. 2019. 12. 5.