Google에서 일부 이미지를 스크랩하려고하는데이 사이트의 스크롤 다운 확장으로 인해 특정 양의 이미지 만 다운로드 할 수 있습니다. 파이썬 코드로 모방하는 방법이 있습니까? 예를 들어, 가능한 경우 Machanize를 사용할 수 있습니다.
따라서 Google 이미지 검색의 스크롤 다운 확장을 시뮬레이션하여 반환 된 결과 수를 늘리고 스크랩 할 이미지 URL을 가져와야합니다.
이것은 아마도 당신을 꽤 빨리 금지시킬 것입니다. 그러나 나는 확실하지 않습니다. BeautifulSoup 및 요청이 필요합니다.
import requests
from bs4 import BeautifulSoup
s = requests.session()
s.headers.update({"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36"})
URL = "https://www.google.dk/search"
images = []
def get_images(query, start):
screen_width = 1920
screen_height = 1080
params = {
"q": query,
"sa": "X",
"biw": screen_width,
"bih": screen_height,
"tbm": "isch",
"ijn": start/100,
"start": start,
#"ei": "" - This seems like a unique ID, you might want to use it to avoid getting banned. But you probably still are.
}
request = s.get(URL, params=params)
bs = BeautifulSoup(request.text)
for img in bs.findAll("div", {"class": "rg_di"}):
images.append(img.find("img").attrs['data-src'])
#Will get 400 images.
for x in range(0, 5):
get_images("cats", x*100)
for x in images:
print x
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다