IT지식/빅데이터

[빅데이터] 웹 크롤링과 웹 크롤러

매 석 2022. 10. 22. 23:20
반응형

 

1. 웹 크롤링 기법

1. HTTP와 HTML을 활용하는 방법
HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히
파싱하여 필요한 데이터를 추출하는 것이다.

2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해
사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다.

3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다.

2. 웹 크롤러

웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다.

프로그래밍 언어로 크롤러를 구현하는 경우
파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여,
HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지를 파이썬 객체로 변환하고 데이터를 추출한다.

API를 활용해 크롤러를 구현할 때는 서비스 제공자의 안내에 따라 데이터 요청 코드를 작성하면 된다.
일반적인 과정은 서비스 제공자에게 서비스 키를 요청해 API의 사용 권한을 부여받는다.
이후 서비스 URL에 서비스 키와 원하는 데이터를 특정하기 위해 파라미터를 추가해 요청 URI를 만들고,
끝으로 크롤러에게 API를 호출해 응답을 받는다.

3. 웹 크롤링 시 주의사항

1. 페이지 요청 사이에 시간 간격을 짧게 하면 정책적으로 차단될 수 있다.
2. 개인 정보보호법에 위반되는 정보를 수집한 경우 법적 처벌을 받을 수 있다.

4. 웹 크롤링의 예시

 

[Python] 파이썬 Beautiful Soup - 네이버 금융 시세 웹 크롤링(셀트리온)

1. Beautiful Soup 란? - HTML, XML 페이지로부터 데이터를 추출하는 파이썬 라이브러리다. - 흔히 웹 크롤러나 웹 스크레이퍼로 불리기도 한다. - 추가로 항상 스크레이핑할 때는 저작권과 관련 법률을

maeseok.tistory.com