1주차
교재 :
교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다.
1주차는 그냥 탐색 및 개발환경 구축 정도이다.
3주차부터 제대로 된 분석을 할 예정이다.
학습 내용
1주차 진행 : 본교재(0~2강), 부교재 강의(1,2강 시청)
부교재 강의 : 1강, 2강 진행
내용 :
1강은 인공지능의 발전사를 중심으로 설명했다.
인공지능 태동기, 황금기, AI 겨울, AI 붐 등으로 나누어
과거 인공지능의 시작부터 퍼셉트론 등의 발전 과정과
컴퓨터적 성능의 한계로 발전에 제한이 생겼지만,
현재에 와서는 이러한 성능적 한계가 개선되었고,
이에 AlexNet, 텐서플로, 알파고 등 다양한 AI를 활용한 기술들이 발표되고 있다.
인공지능 > 머신러닝 > 딥러닝으로 구분된다.
또한 인공지능은 강인공지능, 약인공지능으로 구분된다.
보통 인공지능은 파이썬을 사용해서 학습하곤 한다.
2강에서는 개념내용 보다는 코랩과 주피터 노트북을 활용해서
개발 환경을 구축하는 내용을 진행했다.
본교재 : 0~2장
- 0장
데이터 분석에서는 다루고 있는 데이터의 범위, 목표, 목적 등을 정확하게 알고 평가하는 것이 중요하다.
캐글은 세계 각국에서 이용하는 데이터 분석 경진대회 플랫폼을 말한다.
- 1장
실제 데이터는 잘 정리한 데이터가 아닐 확률이 높기에, 데이터 전처리를 하는 과정이 중요하다.
캐글은 경진대회 기간 중 표시되는 공개 리더보드와 비공개 리더보드가 있다.
공개 리더보드는 테스트 데이터 중 20%를 사전에 공개하여 예측한 정확도를 말하고,
비공개 리더보드는 나머지 80%의 데이터로 얻은 결과를 말한다.
캐글에서는 결과에 따라 골드, 실버, 브론즈 메달을 수여받을 수 있다.
경진대회 참여 흐름
- 경진대회 선택
- 참가 조건 확인
- 데이터 분석
- 예측 결과 제출
- 논의 후 3 혹은 6단계로 진행
- 최종 예측 값 선택
경진대회 종류
- 예측 경진대회 : 가장 표준적인 경진대회
- 코드 경진대회 : 분석 환경 동일, 조건 있음
- 최적화 경진대회 : 최적의 답을 얼마나 빨리 찾는 지가 관건
- 시뮬레이션 경진대회 : 게임 등에서 고득점을 취득할 수 있는 자동 프로그램과 같다.
- 2장
데이터 분석 순서 및 개요
- 목적, 평가 지표 결정
- 데이터 수집
- 데이터 가공 및 전처리
- 데이터 탐색 및 가시화
- 특정 값 추출
- 모델 작성, 예측 및 분류
- 모델 검증
용어
목적 변수 : 데이터 분석으로 예측할 때 최종적으로 예측해야 할 값
설명 변수 : 목적 변수의 원인이 되는 값
학습 데이터 : 설명 변수 + 목적 변수
테스트 데이터 : 설명 변수만 있는 데이터
검증 데이터 : 학습 데이터에서 파생된 별도의 데이터
개발환경
아나콘다 -> 쥬피터 노트북
추가로 알고 싶은 점 ?
- 경진대회 참가 조건은 어떤 것이 있는지?
- 경진대회의 종류가 많은데 각 종류마다 예시를 확인하고 싶다.
- 실제 진행한 데이터 분석의 순서도 예시
'프로그래밍 > 파이썬' 카테고리의 다른 글
EDA - 4단계 : 캐글 타이타닉 코드 분석 (1) | 2023.11.02 |
---|---|
EDA - 3단계 : 캐글 스터디 마무리 (1) | 2023.10.31 |
EDA - 3단계 : 캐글 스터디(with TAVE 12기) (1) | 2023.09.10 |
EDA - 2단계 : 실제 데이터 다루기 (5) (2) | 2023.08.02 |
EDA - 2단계 : 실제 데이터 다루기 (4) (1) | 2023.07.31 |