반응형
1. 웹 크롤링 기법
1. HTTP와 HTML을 활용하는 방법
HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히
파싱하여 필요한 데이터를 추출하는 것이다.
2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해
사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다.
3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다.
2. 웹 크롤러
웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다.
프로그래밍 언어로 크롤러를 구현하는 경우
파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여,
HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지를 파이썬 객체로 변환하고 데이터를 추출한다.
API를 활용해 크롤러를 구현할 때는 서비스 제공자의 안내에 따라 데이터 요청 코드를 작성하면 된다.
일반적인 과정은 서비스 제공자에게 서비스 키를 요청해 API의 사용 권한을 부여받는다.
이후 서비스 URL에 서비스 키와 원하는 데이터를 특정하기 위해 파라미터를 추가해 요청 URI를 만들고,
끝으로 크롤러에게 API를 호출해 응답을 받는다.
3. 웹 크롤링 시 주의사항
1. 페이지 요청 사이에 시간 간격을 짧게 하면 정책적으로 차단될 수 있다.
2. 개인 정보보호법에 위반되는 정보를 수집한 경우 법적 처벌을 받을 수 있다.
4. 웹 크롤링의 예시
'IT지식 > 빅데이터' 카테고리의 다른 글
빅데이터 전문가는 수학 및 통계학을 알아야 할까? (0) | 2022.10.29 |
---|---|
[IT지식] 빅데이터 직종에서 가장 많이 사용되는 언어는? (3) | 2022.10.23 |
[빅데이터] 데이터 분석 소프트웨어의 장점과 단점 (0) | 2022.10.22 |
데이터 시각화 - 유형 및 특징(그래프, 히스토그램, 대시보드 등) (5) | 2022.10.18 |
데이터 기획자 - 업무, 필요 능력, 전망 한번에 정리 (2) | 2022.10.18 |