단일 입력으로 특정 웹 사이트를 긁어 내려고합니다. 지금은 Scrapy로 구축했으며 모든 조정 작업 (robots.txt를 따르지 않음 포함) 후 자동으로 데이터 마이닝에 대한 루프에서 실행됩니다.
이제 입력으로 한 페이지를 긁어 모을 무언가를 만들어야합니다.
문제는 내가 액세스 할 수있는 유일한 페이지는 robots.txt 페이지이며, robots.txt를 둘러 보는 것에 대한 정보를 온라인에서 찾을 수 없다는 것입니다.
BS 또는 Requests로 수행하는 방법에 대한 자습서가 있습니까?
이 헤더를 전달하면 예상되는 출력을 얻을 수 있습니다.
import requests
headers = { 'accept':'*/*',
'accept-encoding':'gzip, deflate, br',
'accept-language':'en-GB,en;q=0.9,en-US;q=0.8,hi;q=0.7,la;q=0.6',
'cache-control':'no-cache',
'dnt':'1',
'pragma':'no-cache',
'referer':'https',
'sec-fetch-mode':'no-cors',
'sec-fetch-site':'cross-site',
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}
URL = "https://www.crunchbase.com/login"
response = requests.get(url=URL, headers=headers)
print(response.text)
도움이 되었기를 바랍니다!
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다