프로그래밍/파이썬

EDA - 3단계 : 캐글 스터디 마무리

매 석 2023. 10. 31. 19:18
반응형

과거 내용

 

EDA - 3단계 : 캐글 스터디(1)

1주차 교재 : 교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다. 1주차는 그냥 탐...

blog.naver.com

 

스터디 진행

중간에 해당 커리큘럼을 살짝 수정했지만 위 내용과 거의 비슷하게 스터디를 진행했다.

9월 16일부터 10월 28일까지 중에 6번을 토요일에 오프라인으로 만나

각자 준비한 퀴즈를 모아서 풀어보는 형태와 자기가 학습해서 얻은 결과 코드를

발표하는 방식으로 학습했다.

교재는 혼자 공부하는 머신러닝+딥러닝과 쉽게 시작하는 캐글 데이터 분석까지 총 2개를 사용했다.

전자의 경우 머신러닝 범위까지인 chapter6까지, 후자의 경우 4장까지 학습했다.

핑계긴 하지만, 과제, 수업내용 복습, 중간고사 준비 등과 같이 병행하다보니, 스터디한 내용을

완벽하게 이해하진 못했다. 특히 5주차~6주차의 경우 중간고사 기간과 겹쳐 교재 이외의

캐글에 있는 코드를 추가로 학습하는 것을 제대로 준비하지 못했다.

 

 

스터디 결과물

아래 사진과 같이 jupyter notebook을 사용해 진행했다.

캐글의 과정은 데이터 EDA, 전처리, 머신러닝 모델 구현 및 더 좋은 결과를 찾아서 정확도를 올리는 행위를 반복해 최종적으로 캐글에 제출해 점수를 얻는 형태이다.

그 과정에서 사용한 코드들의 일부를 아래 html 형태로 첨부했다.

 
 

home_prices.html
1.33MB
titanic.html
0.96MB
logistic.html
1.50MB

 

스터디 후기

TAVE 12기 소속으로 스터디를 4명의 팀원과 진행했다.

기간 안에서 회당 2시간 이상씩 총 6회를 진행하는 룰이 있었고,

또한 시작할 때와 끝날 때 팀원과 시계가 보이도록 사진을 찍어

운영진에게 인증하는 방식으로 나름 꼼꼼하게 케어해주었다.

물론 이런 환경에서도 자기가 설렁설렁 학습하면 얻어가는 것이 없을 수 있다고 생각한다.

나는 과거 EDA 학습을 바탕으로 캐글에 입문하여 어떤 방식으로 캐글이 진행되는지 숙지하고,

또한 어떤 머신러닝 모델을 학습에 사용하고 그것의 장단점이 무엇인지 파악할 수 있었다.

코드를 읽고 대부분 해석은 가능하지만, 처음부터 끝까지 내가 캐글 대회를 진행하는 것은

아직 어려울 것이라고 느껴진다. 그렇기에 이후 포스팅은 캐글 대회를 진행할 때 사용한

코드를 분석하여 어떠한 방식으로 진행되는지 다시 학습 후 새로운 캐글 대회를 스스로

코드를 짜서 풀어보려고 한다. 이 내용은 EDA-4단계로 포스팅할 예정이다.

추가로 팀원들과 소통하면서 NOTION이라는 플랫폼을 이용하여 과거 경험이 없었지만

이번에 배우는 계기가 되어 좋았다.

 

TMI

11월 4일에 전반기 스터디를 종료하고, 11월 11일부터 후반기 프로젝트를 진행한다.

프로젝트 종류와 팀원들은 11월 11일에 소통 후 정해질 예정이다.

그 이후부터는 시간날 때 프로젝트 관련 포스팅을 하려한다.

중간고사가 끝나고 평소 부족했던 자기계발을 진행할 예정이다.

어제 "교보문고 전자도서관" 어플리케이션을 다운받아

학교 아이디로 로그인 후 무료로 책을 대출받아 E-BOOK로 볼 수 있다는 사실을 알았다.

그래서 현재는 간단하게 "불편한 편의점"이라는 책을 보고 있다.

추가로 일요일에 주문한 역행자라는 책이 오늘 도착하여 위 책을 마무리하고 내일부터 읽을 예정이다.

역행자는 유튜브에서 도파민과 뇌에 관련 영상을 우연히 접하여 여러 개 보다가

해당 책을 알게 되었다. 나에게 꼭 필요한 내용이라고 생각하여 주문했다.

추가로 황논문 교수의 "몰입"이라는 책도 기회가 되면 읽어보고 싶다.