머신러닝 수업을 들으면서 데이터셋을 많이 모아야 했는데 kaggle사이트를 통해 데이터셋을 받는 쉬운 방법도 있지만
직접 파이썬 크롤링을 이용하여 데이터셋을 모으고 싶었다.
- Selenium 다운로드
파이썬 크롤링은 beautifulsoup과 Selenium이 유용하고, 많이 사용되는데 나는 Selenium을 쓰기로 했다.
Selenium을 사용해야 다양한 크롤링을 진행할 수 있기 때문( 인스타그램 크롤링도 진행 예정 )
크롬 드라이버는 https://chromedriver.chromium.org/downloads 해당 URL에서 다운로드하였다.
- 크롬 드라이버 다운로드
파이썬을 통해 크롤링을 하기 위해서는 크롬 드라이버를 사용하여 크롬을 제어해야 한다.
크롬 드라이버는 https://chromedriver.chromium.org/downloads 해당 URL에서 다운로드하였다.
- 파이썬 코드

https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl 구글 이미지 사이트를 통해 크롤링을 진행할 예정이기 때문에 해당 주소를 적어줍니다.

구글 이미지 사이트에 접속 후 개발자 도구를 이용하여 검색창 input의 name을 확인합니다. 검색창 이름이 q임을 확인했으니 element_by_name에 q를 입력 이후 send_keys를 활용하여 원하는 검색어 입력 후 Enter(Keys.RETURN)

구글 이미지 검색 후 크롤링을 진행하기 위해서는 우선 스크롤을 다 내려줘야 한다. 이유는 스크롤을 내려야 더 많은 이미지를 검색할 수 있기 때문

같은 이유로 스크롤을 모두 내린 후 결과 더보기 버튼을 클릭하기 위해서
driver.find_elements_by_css_selector(".mye4qd").click() 를 추가합니다.


images = driver.find_elements_by_css_selector(".rg_i.Q4LuWd") 코드를 통해서 이미지 선택

for 문을 통해서 images를 모두 다운로드한다

다운로드 완료한 이미지 파일들 이로써 구글 크롤링 완료
깃허브 주소 : https://github.com/beombeom1119/crawling
'휴지통.. > Python' 카테고리의 다른 글
파이썬을 이용한 크롤링 - 인스타그램 이미지 (0) | 2021.09.16 |
---|