요청 / BeautifulSoup VS robots.txt

debugcn 에 게시 Dev

슬라바 버그 즈

단일 입력으로 특정 웹 사이트를 긁어 내려고합니다. 지금은 Scrapy로 구축했으며 모든 조정 작업 (robots.txt를 따르지 않음 포함) 후 자동으로 데이터 마이닝에 대한 루프에서 실행됩니다.

이제 입력으로 한 페이지를 긁어 모을 무언가를 만들어야합니다.

문제는 내가 액세스 할 수있는 유일한 페이지는 robots.txt 페이지이며, robots.txt를 둘러 보는 것에 대한 정보를 온라인에서 찾을 수 없다는 것입니다.

BS 또는 Requests로 수행하는 방법에 대한 자습서가 있습니까?

Adarsh punj

이 헤더를 전달하면 예상되는 출력을 얻을 수 있습니다.

import requests

headers = { 'accept':'*/*',
'accept-encoding':'gzip, deflate, br',
'accept-language':'en-GB,en;q=0.9,en-US;q=0.8,hi;q=0.7,la;q=0.6',
'cache-control':'no-cache',
'dnt':'1',
'pragma':'no-cache',
'referer':'https',
'sec-fetch-mode':'no-cors',
'sec-fetch-site':'cross-site',
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
 }

URL = "https://www.crunchbase.com/login"

response = requests.get(url=URL, headers=headers)
print(response.text)

도움이 되었기를 바랍니다!

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-1

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

요청 / BeautifulSoup VS robots.txt

요청 / BeautifulSoup VS robots.txt

robots.txt에 HTML 요소 추가

robots.txt가 불완전합니다. 어떻게 되나요?

Microsoft SkyDrive의 Robots.txt

Robots.TXT Disallow 구문

웹 크롤러가 robots.txt URL 또는 태그를 따르나요?

요청 VS Urllib 2

Angular 8 사이트 맵 및 robots.txt

Magento CE 1.9.0.1 robots.txt not showing when called

Robots.txt 및 하위 폴더

What does double slash (//) directory mean in robots.txt?

Robots.txt에서 허용 및 금지

robots.txt는 특정 파일과 폴더 만 필요하며 모든 것을 허용하지 않습니다.

.htaccess는 /robots.txt를 /robots.txt/로 리디렉션합니다.

Python BeautifulSoup 및 요청 웹 스크랩

BeautifulSoup 및 요청 구문 분석 문제

.txt 파일에 대한 POST 요청

robots.txt-사용자 에이전트 블록 사이에 빈 줄이 필요합니까, 아니면 선택 사항입니까?

해커에게 중요하고 비밀 경로를 알리기 위해 robots.txt 취약성을 해결하는 방법은 무엇입니까?

헤더 페이지 robots.txt 허용 안함

Angular Build-Config : 조건부 파일 (robots.txt) 추가

robots.txt는 홈페이지 만 표시

robots.txt.dist는 무엇에 사용됩니까?

여러 도메인에 대한 robots.txt 파일 배치

WordPress 용 Robots.txt가 루트 디렉토리에 없을 때

Python에서 robots.txt의 내용을 읽고 인쇄

호출시 Magento CE 1.9.0.1 robots.txt가 표시되지 않음

검색 스크립트가 robots.txt를 무시 함

wget -m이 robots.txt를 삽입합니까?

codeigniter의 robots.txt-보기 / 기능 허용