728x90
반응형

Crawling 2

[Python] Selenium을 이용한 동적 크롤링

- 정적 데이터와 동적 데이터의 차이 정적 데이터: 한 페이지 안에서 원하는 정보가 모두 드러나는 것 동적 데이터: 입력, 클릭, 로그인 등을 통해 데이터가 바뀌는 것 일반적인 크롤링으로는 정적 데이터(변하지 않는 데이터)만 수집할 수 있습니다. - Selenium 셀리니움을 이용하면 정적 페이지와 동적 페이지를 모두 크롤링할 수 있지만 상대적으로 속도가 느립니다. 구분 정적 크롤링 동적 크롤링 사용 패키지 requests selenium 수집 커버리지 정적 페이지 정적 / 동적 페이지 수집 속도 빠름 상대적으로 느림 파싱 패키지 beautifulsoup beautifulsoup / selenium 다양한 브라우저 및 플랫폼에서 웹 응용 프로그램을 테스트할 수 있게 해줍니다. 웹 자동화 테스트 용도로 개..

[Python] 크롤링(Crawling)

- 크롤링 주의 사항 특정 웹사이트의 페이지를 쉬지 않고 크롤링하는 행위를 무한 크롤링이라고 하는데, 이는 해당 웹사이트의 자원을 독점하게 되어 타인의 사용을 막게 되며 웹사이트에 부하를 줍니다. 일부 웹사이트의 경우 동일한 IP로 무한 크롤링을 할 경우 해당 IP의 접속을 막아버리기도 합니다. 그렇기에 하나의 페이지를 크롤링한 후 1~2초 가량 정지하고 다시 다음 페이지를 크롤링하는 것이 바람직합니다. 신문기사나 책, 논문, 사진 등 저작권이 있는 자료를 통해 부당이득을 얻는다는 등의 행위를 할 경우 법적 제재를 받을 수 있습니다. 서버에 데이터를 요청하는 형태는 다양하지만 크롤링에서는 주로 GET과 POST 방식을 사용합니다. - GET 방식 인터넷 주소를 기준으로 이에 해당하는 데이터나 파일을 요청..

728x90
반응형