크롤링 2

토이프로젝트 - (2) 데이터 수집 (with pandas)

- 배경 토이프로젝트 - (1) 데이터 수집 (코스피 크롤링) 기본 배경 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 ... blog.naver.com 과거 라이브러리 사용 대신에 직접 크롤링하여 주가 데이터를 수집하려고 했다. 그래서 네이버 금융을 통해 수집하려 했으나, 코스피와 S&P500의 형식이 달라 다른 사이트에서 데이터를 수집하려고 한 상황이다. ​ 하지만 현재 네이버의 데이터 형식을 수정하여 데이터를 정상적으로 수집을 완료한 상태이다. - 코스피 데이터 수집 from bs4 import BeautifulSoup import pandas as pd import urllib.request as req import requests headers =..

[Python] 파이썬 Beautiful Soup - 네이버 금융 시세 웹 크롤링(셀트리온)

1. Beautiful Soup 란? - HTML, XML 페이지로부터 데이터를 추출하는 파이썬 라이브러리다. - 흔히 웹 크롤러나 웹 스크레이퍼로 불리기도 한다. - 추가로 항상 스크레이핑할 때는 저작권과 관련 법률을 위배하지 않는 것이 중요하다. 2. Beautiful Soup 파서 종류 파서 믄자열 장점 단점 Python's html.parser 'html.parser' 기본옵션, 속도적절 유연한 파싱 lxml 파서보다 느리고, htmllib5 파서만큼 유연x lxml's HTML parser 'lxml' 속도 매우 빠르고,유연한 파싱 lxml's XML PARSER 'lxml-xml','xml' 속도 매우 빠르고,유연한 파싱 XML파일만 가능 html5lib 'html5lib' 극도로 유연하여 복..