본문 바로가기

분류 전체보기42

[Porto Seguro’s Safe Driver Prediction] 데이터 탐색하기 Porto Seguro’s Safe Driver Prediction 대회에서 제공하는 데이터에는 몇가지 특징이 있다. 1. 컬럼 이름(ind,reg, car, calc)을 가지고 Grouping이 된다 2. 컬럼 이름에 '_bin' 은 Binary Features , '_cat' 은 Categorical Features를 의미한다. 3. 컬럼 이름에 아무것도 안붙어있으면 Continuous or Ordinal Features를 의미한다. 4. '-1' 은 Null 값을 의미한다. 데이터는 총 57개의 X 데이터가 주어진다(ID,Target 제외). 이는 Interval (21개) / Ordinal(16개) / Binary(18개) Variables로 나뉜다. 1. Interval Variables : p.. 2020. 2. 2.
[Porto Seguro’s Safe Driver Prediction] 대회 소개 / 지니계수 란? 캐글(Kaggle) 대회 리뷰 : Porto Seguro’s Safe Driver Prediction - 이 대회는 2년전에 진행한 대회로 총 5,163 개의 Team이 참가한 매우 큰 대회였다. 지금도 5,000명 이상 참가하는 대회를 보기는 쉽지 않다. 당시의 Leaderboard를 보면 Private Leader board에서 3위한 사람이 Public Leader board 순위 대비 1070등이 상승했고 4등은 1100등이 상승했다. 이 말은 곧 Train데이터와 Test 데이터 간의 분포가 달라 Shaking이 많이 일어 난 것이라 볼수 있겠다. 이것만 보아도 당시에 꽤나 말이 많았을 것으로 생각된다. 대회 설명 "Predict if a driver will file an insurance c.. 2020. 2. 2.
[책 리뷰] 글쓰기의 힘 글쓰기의 힘 - 장동석 외저 | 북바이북 평소 생각을 들어내는 것에 소극적이었던 내가 생각을 블로그를 통해 오픈하기로 마음을 먹고 글을 써보려고 하니 막막했다. 어디에서부터 접근해야할지 몰랐다. 어려서부터 다이어리 쓰는 것을 즐겨했었지만 혼자만 보는 곳에 글을 작성하는 것이었기에 논리적이지 재미있지도 않았다. 이제부턴 조금은 발전된 글을 쓰고 싶었다. 혼자 고뇌하며 발전하는 인고의 시간을 물론 견뎌야하겠지만 뛰어난 분들의 글쓰기 노하우를 배워보고 싶었다. 그래서 이 책을 펼쳤다. 이 책은 다양한 영역에서 글을 쓰는 작가들의 노하우 담겨있다. 블로그 글쓰기의 노하우를 전하는 작가부터 치유를 위한 글쓰기를 하는 작가까지 다양한 생각이 가득했다. 그 중에서 내게 인상 깊었던 이야기가 두개가 있다. 자기 발견을.. 2020. 1. 26.
[APTOS 2019 Blindness Detection] 대회 소개 Kaggle - APTOS 2019 Blindness Detection 대회 농촌 지역에서 수집 된 수천 장의 이미지를 사용하여 당뇨병 성 망막증을 자동으로 식별 할 수 있습니다. 공하면 평생 실명을 예방하는 데 도움이 될뿐만 아니라이 모델을 사용하여 녹내장 및 황반 변성과 같은 다른 종류의 질병을 발견 할 수도 있습니다. 출하려면 커널을 통해 제출해야합 모델을 오프라인으로 훈련시키고 데이터 세트로 업로드 한 다음 커널을 독점적으로 사용하여 추론을 수행 할 수 있습니 CPU 또는 GPU 커널 2020. 1. 14.
[책 리뷰] 빛의 제국 _ 김영하 빛의 제국 _ 김영하 평소 소설을 즐겨 읽는 편은 아니다. 어릴적부터 소설을 읽어야하는 이유를 이해하지 못했다. 재미를 위해 읽어야 한다면 잘 만들어진 영화 한 편 보는 것이 훨씬 효율적이라고 생각해왔다. 하지만 이 생각은 최근에 와서야 크게 잘 못 되었음을 깨달았다. 소설을 읽는 것은 다양한 삶을 간접 경험하며 나의 지혜를 넓혀나가는 행위였다. 어릴적부터 국어 선생님이 귀에 딱지가 생기도록 하셨던 말씀이였는데 최근에서야 간접 경험이 무엇인지를 깨닫는 듯하다. 이렇게 배움이 느려서야.... 올해는 소설을 통해 지혜를 넓혀가는 시간을 자주 가져야겠다고 다짐을 하며 "빛의 제국"을 읽기 시작했다. 빛의 제국은 북한에서 공작원으로 남한으로 파견되어 20년 째 살아가는 주인공(김기영)이 갑작스럽게 북으로 복귀하.. 2020. 1. 4.
[ 주식 알림 봇 개발 ] 키움증권(영웅문) API 연결하기 주말동안 키움증권 API를 연결하고 간단한 로직으로 종목을 추출하는 것까지 하려했으나, 키움증권 API를 연결하는 과정에서 많은 오류를 접하게 되어 겨우 API 연결하는 것까지만 진행했다. 이번에는 1. 키움증권 API를 접속 하기 위한 필수 프로그램 2. 마주하게 될 많은 오류들에 대해 이야기하고자 한다. [ 필수 프로그램 ] 키움 Open API를 사용하기 위해서는 키움증권 계좌개설은 물론이고 API 사용을 위한 사전신청이 필요하다. 이후에도 키움 Open API/ KOA Studio 설치가 필요하다. 설치는 어렵지 않으니 아래 링크 참조해서 진행하면 되겠다. 링크 바로가기 : https://www3.kiwoom.com/nkw.templateFrameSet.do?m=m1408000000 [ 환경 설정.. 2019. 12. 29.
[ 주식 알림 봇 개발] 꼭 사야하는 주식을 알려주는 로봇이 있으면 좋겠다 [프로젝트 시작에 앞서] _주식 알림 봇 개발 주식을 분석하는 방법에는 재무제표를 기반으로 하는 기본적 분석방법과 차트를 기반으로하는 기술적 분석방법이 있다. 주식 입문자이니 기본적이든 기술적이든 둘다 잘 못한다. 그저 많은 정보를 듣고만 판단할 뿐. 특히나 기술적 분석은 더욱 잘 모른다. 그런 내가 이 프로젝트를 시작하고자 하는 이유는 앞서 리뷰한 "나의 월급 독립 프로젝트" 의 영향이 크다. - "나의 월급 독립 프로젝트" 책 리뷰 : https://yseon99.tistory.com/23?category=850429 작가는 직장을 다니면서 주식 공부를 할 때 시간을 아끼는 것이 중요하다면서 원하는 차트를 갖는 주식을 알려주는 프로그램이 큰 도움이 됐다고 이야기한다. 나는 아직 본격적으로 주식 공부를.. 2019. 12. 29.
[신과 함께_ 재무제표] 2강. 돈을 잃지 마라 그것이 가장 중요하다. 2강 돈을 잃지 마라 그것이 가장 중요하다. 1. 꼭 확인해야할 관리종목 포함 요건을 알고 있는가? - 당기 순이익 적자 몇년 지속되면 관리 종목 들어가는거 없다. - 자본잠식률((자본금-자본총계)/자본금) >50% + 매출액 30억 이하(코스피는 50억) + 4년 연속 영업 손실 + 자기 자본의 50%를 초과하는 법인세 비용 차감전 순손실 최근 3년중 2번 - 투자하기 전에 3년 연속 영업 손실이 났는지 반드시 체크해야한다. 3년 연속 영업손실이라면 올해에는 어떻게든 영업손실을 피하려고 하기 때문에 문제가 생길 수 있다. 이런 내용은 애널리스트들이 이야기해주지 않는다. 각자 확인해야한다. 왜 매수 리포트는 있어도 매도 리포트는 없겠는가 매도리포트를 쓴 애널리스트는 밥줄이 끊기게 된다. 그 회사에서 이제.. 2019. 12. 29.
[신과 함께_ 재무제표] 1강. 재무제표는 주식 투자에 도움이 되는가? 사경인 회계사의 강의력은 주변에서 많이 들었지만 기회가 없어서 수강하지 못하던 참에 신과함께에서 겨울 아카데미로 사경인 회계사 강의를 온라인으로 제공한다고 하기에 바로 신청하여 듣기 시작했다. 역시나 듣던대로 강의력이 대단하다. 강의를 듣다보면 그동안 까막눈인 상태로 주식을 해왔다는 사실을 깨닫게 된다. 1강 재무제표는 주식투자에 도움이 되는가? 1. "투자와 트레이딩은 다르다" - 투자 : 투자 대상에 돈을 주고 성과를 받는 것 // 트레이딩 : 투자자들간의 교환을 통해 돈을 얻게 되는 것 - 투자를 할 것인지, 트레이딩을 할 것인지 잘 생각해서 전략을 짜야하겠다. - 트레이딩은 주가가 오를 확률이 상대방보다 높은 지점 즉, 51% 이상이 되는 지점을 찾아서 무수히 반복하는 것이다. 한 두판은 상대에게.. 2019. 12. 29.
[책 리뷰] 상위 0.1% 부자는 어떻게 만들어지는가_박지영 [책 리뷰] 상위 0.1% 부자는 어떻게 만들어지는가 "한 번뿐인 인생을 좀 더 멋지고 행복하게 살고 싶다면 돈을 좇지 말고 태도를 만들어라." 책 제목에 이끌려 읽기 시작했다. 궁금했다. 나와 다른 세계에 살고 있다던 그들은 어떤 생활을 하고 어떤 생각을 하는지. 이 책은 20년동안 카드회사에서 VIP 마케팅 업무를 담당해온 작가가 그동안의 경험을 바탕으로 작성한 책이다. 혹시 부자가 되기 위한 기술적이고 직접적인 정보를 얻길 원했다면 다른 책을 찾아보길 바란다. 이 책에서 작가는 그들의 "삶의 태도"에 대해 이야기 하고 있다. 사회적으로 성공한 사람들의 생각을 엿봄으로써 삶의 지혜를 얻고자 하는 사람들에게 추천한다. 인생 선배들의 지혜가 녹아져있다. 인상 깊은 내용이 정말 많은 책이라 리뷰할 내용을 .. 2019. 12. 28.
[Santander Product Recommendation] 전혀 다른 모델 활용하기(MLP) 이번에는 XGBOOST가 아닌 MLP(Multi Layer Perceptron)을 활용한 학습한 내용에 대해 포스팅하겠습니다. 이번 포스팅은 아래 링크를 참고하였으니 더 자세한 내용이나 코드를 원하시는 분은 아래 참고 바랍니다. https://www.kaggle.com/hachemsfar/keras 많은 대회를 참가하지 않았지만 대회 리뷰들을 읽다보면 의외로 MLP가 좋은 성적을 거두는 경우들이 있습니다. 물론 MLP만 활용하는 것은 아니고 MLP와 다른 모델을 섞어서 다양성을 주는 겁니다. 이때 MLP를 학습시키는 게 매우 어려울때가 많습니다. 적당한 Hyperparameter들을 세팅해주지 않으면 생각처럼 학습이 잘 되지 않습니다. 기존에 세팅해뒀던 Baseline을 기반으로 모델만 변경하여 학습해봤.. 2019. 12. 25.
[Santander Product Recommendation] Feature engineering 어렵게, 정말 어렵게 Baseline을 구축했습니다. 쉽게 갈 수 있는 길을 어렵게 돌아온 이유는 생각해보면 문제에 대한 이해를 후순위에 두고 기술적으로만 접근했기 때문인 것 같습니다. 큰 교훈 하나 얻었으니 다음 대회부턴 문제에 대한 이해를 우선시 해야겠습니다. 아무튼 현재까지 구축된 Baseline을 기반으로 모델 성능을 Improve 하는 시도를 해보겠습니다. 1. Baseline : Public Score 0.01088 - lag-1 값(지난달 개인정보 + 보유 상품)을 신규 Feature로 하고 3 Folds(shuffle =True)로 CV 했을때 결과 입니다. - 생각보다 결과가 나빴지만 어렵게 구축한 Baseline인 만큼 만족하고 다음 단계로 넘어갔습니다. 2. Fold 구성 방식 변경 .. 2019. 12. 25.