본문 바로가기

딥러닝5

[Porto Seguro’s Safe Driver Prediction] Improve 최종적으로 240등(Private 0.29025, Public 0.28669) 모델을 구축했다. 이전 포스팅에서 공개한 Baseline을 기반으로 업그레이드를 시켰으며, 주된 변경점은 1. category Feature encoding 방법 변경 2.Undersampling 이다. [ Category Feature Encoding ] 이전의 머신러닝 대회에서는 카테고리 변수 내에 Label이 너무 많아 모두 dummy화 시킬 경우 Cardinality가 너무 높아져서 문제가 되는 경우가 많았다. 그래서인지 당연하게 Category Feature를 Get_dummy가 아닌 Label Encoding을 했는데 이게 문제가 되었다. 문제를 발견한 건 어떤 방법을 써도 성능이 개선되지 않음을 깨달았을 때부터이다.. 2020. 2. 23.
[Porto Seguro’s Safe Driver Prediction] Baseline 구축 Porto Seguro’s Safe Driver Prediction 이 대회는 XGBOOST를 기반으로 Baseline을 구축했다. LGBM 모델과 성능을 비교하면서 접근했는데 어떤 상황이든 LGBM보다 XGBOOST가 더 높은 성능을 보였다. 1등한 사람의 리뷰를 보면 Denoising Autoencoder로 Feature를 뽑고 그것을 가지고 Neural Net을 만들어서 학습시켰다. 시간이 남는다면 Autoencoder를 꼭 적용해봐야하겠다. 지금은 XGBOOST를 기반으로 여러가지 시도해본 결과를 작성한다. Discussion을 읽다 보면 공통적으로 눈에 들어오는 이야기가 있다. 그것은 각 폴드 마다 Gini Index 산포가 발생한다는 것인데 Public Score에서도 충분히 이런 현상이 있을.. 2020. 2. 11.
[Porto Seguro’s Safe Driver Prediction] 데이터 탐색하기 Porto Seguro’s Safe Driver Prediction 대회에서 제공하는 데이터에는 몇가지 특징이 있다. 1. 컬럼 이름(ind,reg, car, calc)을 가지고 Grouping이 된다 2. 컬럼 이름에 '_bin' 은 Binary Features , '_cat' 은 Categorical Features를 의미한다. 3. 컬럼 이름에 아무것도 안붙어있으면 Continuous or Ordinal Features를 의미한다. 4. '-1' 은 Null 값을 의미한다. 데이터는 총 57개의 X 데이터가 주어진다(ID,Target 제외). 이는 Interval (21개) / Ordinal(16개) / Binary(18개) Variables로 나뉜다. 1. Interval Variables : p.. 2020. 2. 2.
[2019 3rd ML month with KaKR] 대회 참가 후기(삽질의 기록) 이번 포스팅은 몇달전에 참가했던 캐글코리아에서 주최한 자동차 분류대회 후기입니다. 당시에 2주정도 퇴근 후 시간을 할애하여 참가했었는데 그때 했던 삽질(?)들을 기록해두었다가 정리하여 공유합니다. 깃헙 바로가기 ㅁ Model Summary - Resnext101 8 Folds로 최종 제출했고 대회 종료 이틀전에 큰 오류가 있음을 깨닫고 급하게 수정하고 학습시키다보니 다른 모델을 제대로 앙상블 시킬 시간은 없었습니다. ① 전처리 : Cropping , Histogram Equalization ② Augmentation : cutout , rotation 30, horizonal=True, zoom:0.3, rescale :1/255 ③ Loss Function : categorical_crossentrop.. 2019. 12. 19.
[2019 3rd ML month with KaKR] 대회 소개 캐글코리아라는 비영리 커뮤니티에서 진행한 "3차 대회 : 자동차 분류하기"를 소개하고자 합니다. 이 대회는 모든 사람에게 공개된 대회는 아니였고 캐글 코리아 회원에 한하여 특정 링크를 타고 들어가야 데이터 접근이 가능한 대회였습니다. 제목에서 알 수 있듯이 이 대회는 자동차를 분류하는 대회로 기존의 자동차인지 아닌지를 구분하는 대회보다 한단계 업그레이드 된 대회라고 보시면 되겠습니다. 대회바로가기 ㅁ 대회 소개글(from 대회) 우리가 살면서 갖고 싶은게 여러 가지가 있지만, 집 다음으로 보통 자동차 일 것입니다. 우리 주위에서 흔히 볼 수 있고, 편리한 교통 수단 중에 하나입니다. 전 세계적으로 그 수는 무려 10억대가 넘고, 그 종류는 수백, 수천 가지 이상 된다고 합니다. 하지만, 이렇게 많은 차종.. 2019. 12. 18.