프로그래밍/파이썬

EDA - 3단계 : 캐글 스터디(1)

매 석 2023. 9. 15. 19:07
반응형

1주차

교재 :

 

쉽게 시작하는 캐글 데이터 분석 : 네이버 도서

네이버 도서 상세정보를 제공합니다.

search.shopping.naver.com

 

 

혼자 공부하는 머신러닝+딥러닝 : 네이버 도서

네이버 도서 상품과 정보를 제공합니다.

search.shopping.naver.com

 

교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다.

1주차는 그냥 탐색 및 개발환경 구축 정도이다.

3주차부터 제대로 된 분석을 할 예정이다.

 

학습 내용

 

1주차 진행 : 본교재(0~2강), 부교재 강의(1,2강 시청)

부교재 강의 : 1강, 2강 진행

내용 :

1강은 인공지능의 발전사를 중심으로 설명했다.

인공지능 태동기, 황금기, AI 겨울, AI 붐 등으로 나누어

과거 인공지능의 시작부터 퍼셉트론 등의 발전 과정과

컴퓨터적 성능의 한계로 발전에 제한이 생겼지만,

현재에 와서는 이러한 성능적 한계가 개선되었고,

이에 AlexNet, 텐서플로, 알파고 등 다양한 AI를 활용한 기술들이 발표되고 있다.

인공지능 > 머신러닝 > 딥러닝으로 구분된다.

또한 인공지능은 강인공지능, 약인공지능으로 구분된다.

보통 인공지능은 파이썬을 사용해서 학습하곤 한다.

2강에서는 개념내용 보다는 코랩과 주피터 노트북을 활용해서

개발 환경을 구축하는 내용을 진행했다.

본교재 : 0~2장

- 0장

데이터 분석에서는 다루고 있는 데이터의 범위, 목표, 목적 등을 정확하게 알고 평가하는 것이 중요하다.

캐글은 세계 각국에서 이용하는 데이터 분석 경진대회 플랫폼을 말한다.

- 1장

실제 데이터는 잘 정리한 데이터가 아닐 확률이 높기에, 데이터 전처리를 하는 과정이 중요하다.

캐글은 경진대회 기간 중 표시되는 공개 리더보드와 비공개 리더보드가 있다.

공개 리더보드는 테스트 데이터 중 20%를 사전에 공개하여 예측한 정확도를 말하고,

비공개 리더보드는 나머지 80%의 데이터로 얻은 결과를 말한다.

캐글에서는 결과에 따라 골드, 실버, 브론즈 메달을 수여받을 수 있다.

경진대회 참여 흐름

  1. 경진대회 선택
  2. 참가 조건 확인
  3. 데이터 분석
  4. 예측 결과 제출
  5. 논의 후 3 혹은 6단계로 진행
  6. 최종 예측 값 선택

경진대회 종류

  1. 예측 경진대회 : 가장 표준적인 경진대회
  2. 코드 경진대회 : 분석 환경 동일, 조건 있음
  3. 최적화 경진대회 : 최적의 답을 얼마나 빨리 찾는 지가 관건
  4. 시뮬레이션 경진대회 : 게임 등에서 고득점을 취득할 수 있는 자동 프로그램과 같다.

- 2장

데이터 분석 순서 및 개요

  1. 목적, 평가 지표 결정
  2. 데이터 수집
  3. 데이터 가공 및 전처리
  4. 데이터 탐색 및 가시화
  5. 특정 값 추출
  6. 모델 작성, 예측 및 분류
  7. 모델 검증

용어

목적 변수 : 데이터 분석으로 예측할 때 최종적으로 예측해야 할 값

설명 변수 : 목적 변수의 원인이 되는 값

학습 데이터 : 설명 변수 + 목적 변수

테스트 데이터 : 설명 변수만 있는 데이터

검증 데이터 : 학습 데이터에서 파생된 별도의 데이터

개발환경

아나콘다 -> 쥬피터 노트북

추가로 알고 싶은 점 ?

  1. 경진대회 참가 조건은 어떤 것이 있는지?
  2. 경진대회의 종류가 많은데 각 종류마다 예시를 확인하고 싶다.
  3. 실제 진행한 데이터 분석의 순서도 예시