pandas 6

EDA - 1단계 : 데이터 다루기 - 객체 내 연산

- 과거내용 EDA - 1단계 : 데이터 다루기 - 객체 간 연산 과거 내용 Dataframe - 객체 간 연산 데이터를 원하는 데로 다룰 수 있어야 더 좋은 분석을 할 수 있다. ... blog.naver.com - DataFrame - 객채 내 연산 #원본 데이터 data=[[1.25,2.23],[3.21,4.56]] col=['col1','col2'] row=['row1','row2'] df = pd.DataFrame(data=data, index=row, columns=col) 출력 col1 col2 row4 1.25 2.23 row5 3.21 4.56 1. 반올림 #반올림 df.round(0) df.round(1) 출력 col1 col2 row4 1.0 2.0 row5 3.0 5.0 col1 c..

EDA - 1단계 : 데이터 다루기 - 객체 간 연산

- 과거 내용 데이터 분석 - EDA(탐색적 데이터 분석) 개념 EDA 쉽게 말하면 초기 데이터를 조사하고 주요 특징을 찾아 어떻게 분석해나갈지 찾아가는 데이터 분석... blog.naver.com - Dataframe - 객체 간 연산 데이터를 원하는 데로 다룰 수 있어야 더 좋은 분석을 할 수 있다. 그렇기에 지금부터 Dataframe을 다루는 연습을 할 것이다. ​ - 원본 데이터 data=[[1,2],[3,4],[5,6]] col=['col1','col2'] row=['row4','row5','row6'] df = pd.DataFrame(data=data, index=row, columns=col) 출력 col1 col2 row4 1 2 row5 3 4 row6 5 6 1. 더하기 #스칼라 값 더..

토이프로젝트 - (2) 데이터 수집 (with pandas)

- 배경 토이프로젝트 - (1) 데이터 수집 (코스피 크롤링) 기본 배경 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 ... blog.naver.com 과거 라이브러리 사용 대신에 직접 크롤링하여 주가 데이터를 수집하려고 했다. 그래서 네이버 금융을 통해 수집하려 했으나, 코스피와 S&P500의 형식이 달라 다른 사이트에서 데이터를 수집하려고 한 상황이다. ​ 하지만 현재 네이버의 데이터 형식을 수정하여 데이터를 정상적으로 수집을 완료한 상태이다. - 코스피 데이터 수집 from bs4 import BeautifulSoup import pandas as pd import urllib.request as req import requests headers =..

데이터 분석-데이터 전처리 및 가공(feat. pandas)

1. 데이터 전처리 분석에 적합하게 데이터를 가공하는 작업 2. 데이터 전처리에 유용한 pandas 명령어 - 원본 데이터 ​ ​ 1. query() : 행 추출 실행 명령어 : exam.query('nclass=1') 활용 명령어 : exam.query('nclass==1 | nclass==3 | nclass==5') + 추출한 행으로 데이터 만들기 test=exam.query('nclass==1 | nclass==3 | nclass==5') test['math'].mean() ​ ​ 2. 데이터프레임명[] : 열 추출 실행 명령어 : exam[['nclass','math','english']] + 특정 변수 제거하기 exam.drop(columns = 'math') ​ ​ 3. query() + 데이..

[Python] 데이터 분석 기초(pandas, numpy, 파생변수)

1. 기초 지식 - 데이터 프레임 : 행과 열로 구성된 사각형 모양의 표 - 열 ​: 컬럼 또는 변수라고 부른다. (가로) - 행 : 로 또는 케이스라고 부른다. (세로) ​ 행이 반드시 사람이어야 하는 건 아니다. 하나의 단위가 하나의 행이 된다. 데이터가 크다는 뜻은 행이 많다 또는 열이 많다 라는 뜻이다. ​ 행이 많다 -> 컴퓨터가 느려짐 -> 고사양 장비 구축 열이 많다 -> 분석 방법의 한계 -> 고급 분석 방법 빅데이터 보다는 다양한 변수가 담겨 있는 다양한 데이터가 더 중요하다. 2. pandas 및 데이터프레임 기초 - head() : 앞부분 출력(기본 5) - tail() : 뒷부분 출력(기본 5) - shape : 행, 열 개수 출력 - info() : 변수 속성 출력 - descri..

[Python] 파이썬 pandas(판다스) 활용 - 일간 변동률, MDD 구하기

1. Pandas란 ? - 금융 데이터 분석을 목적으로 개발되었으며, 구조화된 데이터를 쉽고 빠르게 가공할 수 있다. - 시리즈와 데이터프레임 자료형 객체를 제공한다. + 시리즈 : 인덱스 처리가 된 1차원 벡터 형태의 자료형, 시계열 데이터 다루는 데 적합 시계열 : 시간의 흐름에 따라 기록한 데이터 데이터프레임 : 여러 시리즈가 한 가지 인덱스를 기준으로 합쳐진 형태 2. Pandas의 명령어 예시 import pandas as pd #시리즈 생성 s = pd.Series([0.0,3.6,2.0,5.8,4.2,8.0]) #시리즈의 인덱스 변경 s.index = pd.Index([0.0,1.2,1.8,3.0,3.6,4.8]) s.index.name = 'MY_IDX' #맨 위에 인덱스명 출력됨 #시리즈..