[빅데이터] 웹 크롤링과 웹 크롤러

IT지식/빅데이터

[빅데이터] 웹 크롤링과 웹 크롤러

매 석 2022. 10. 22. 23:20

1. 웹 크롤링 기법

1. HTTP와 HTML을 활용하는 방법
HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히
파싱하여 필요한 데이터를 추출하는 것이다.

2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해
사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다.

3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다.

2. 웹 크롤러

웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다.

프로그래밍 언어로 크롤러를 구현하는 경우
파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여,
HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지를 파이썬 객체로 변환하고 데이터를 추출한다.

API를 활용해 크롤러를 구현할 때는 서비스 제공자의 안내에 따라 데이터 요청 코드를 작성하면 된다.
일반적인 과정은 서비스 제공자에게 서비스 키를 요청해 API의 사용 권한을 부여받는다.
이후 서비스 URL에 서비스 키와 원하는 데이터를 특정하기 위해 파라미터를 추가해 요청 URI를 만들고,
끝으로 크롤러에게 API를 호출해 응답을 받는다.

3. 웹 크롤링 시 주의사항

1. 페이지 요청 사이에 시간 간격을 짧게 하면 정책적으로 차단될 수 있다.
2. 개인 정보보호법에 위반되는 정보를 수집한 경우 법적 처벌을 받을 수 있다.

4. 웹 크롤링의 예시

[Python] 파이썬 Beautiful Soup - 네이버 금융 시세 웹 크롤링(셀트리온)

1. Beautiful Soup 란? - HTML, XML 페이지로부터 데이터를 추출하는 파이썬 라이브러리다. - 흔히 웹 크롤러나 웹 스크레이퍼로 불리기도 한다. - 추가로 항상 스크레이핑할 때는 저작권과 관련 법률을

maeseok.tistory.com

저작자표시 비영리 변경금지

'IT지식 > 빅데이터' 카테고리의 다른 글

빅데이터 전문가는 수학 및 통계학을 알아야 할까? (0)	2022.10.29
[IT지식] 빅데이터 직종에서 가장 많이 사용되는 언어는? (3)	2022.10.23
[빅데이터] 데이터 분석 소프트웨어의 장점과 단점 (0)	2022.10.22
데이터 시각화 - 유형 및 특징(그래프, 히스토그램, 대시보드 등) (5)	2022.10.18
데이터 기획자 - 업무, 필요 능력, 전망 한번에 정리 (2)	2022.10.18

현재글[빅데이터] 웹 크롤링과 웹 크롤러

코딩으로 경제 공부하기. 주로 경제와 프로그래밍을 주제로 다루고 있습니다.

인공지능수학, 한국근현대사, 토이프로젝트, 통계학개론, C언어, 데이터분석, 백준, 알고리즘, 데이터다루기, 데이터구조, 머신러닝, 에라토스테네스의체, 파이썬, 다이나믹프로그래밍, 자바, 빅데이터, 그리디알고리즘, 마이크로프로세서, EDA, 데이터통신,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

매석의 메모장