요청 / BeautifulSoup VS robots.txt

슬라바 버그 즈

단일 입력으로 특정 웹 사이트를 긁어 내려고합니다. 지금은 Scrapy로 구축했으며 모든 조정 작업 (robots.txt를 따르지 않음 포함) 후 자동으로 데이터 마이닝에 대한 루프에서 실행됩니다.

이제 입력으로 한 페이지를 긁어 모을 무언가를 만들어야합니다.

문제는 내가 액세스 할 수있는 유일한 페이지는 robots.txt 페이지이며, robots.txt를 둘러 보는 것에 대한 정보를 온라인에서 찾을 수 없다는 것입니다.

BS 또는 Requests로 수행하는 방법에 대한 자습서가 있습니까?

Adarsh ​​punj

이 헤더를 전달하면 예상되는 출력을 얻을 수 있습니다.

import requests

headers = { 'accept':'*/*',
'accept-encoding':'gzip, deflate, br',
'accept-language':'en-GB,en;q=0.9,en-US;q=0.8,hi;q=0.7,la;q=0.6',
'cache-control':'no-cache',
'dnt':'1',
'pragma':'no-cache',
'referer':'https',
'sec-fetch-mode':'no-cors',
'sec-fetch-site':'cross-site',
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
 }

URL = "https://www.crunchbase.com/login"

response = requests.get(url=URL, headers=headers)
print(response.text)

도움이 되었기를 바랍니다!

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

robots.txt에 HTML 요소 추가

분류에서Dev

robots.txt가 불완전합니다. 어떻게 되나요?

분류에서Dev

Microsoft SkyDrive의 Robots.txt

분류에서Dev

Robots.TXT Disallow 구문

분류에서Dev

웹 크롤러가 robots.txt URL 또는 태그를 따르나요?

분류에서Dev

요청 VS Urllib 2

분류에서Dev

Angular 8 사이트 맵 및 robots.txt

분류에서Dev

Magento CE 1.9.0.1 robots.txt not showing when called

분류에서Dev

Robots.txt 및 하위 폴더

분류에서Dev

What does double slash (//) directory mean in robots.txt?

분류에서Dev

Robots.txt에서 허용 및 금지

분류에서Dev

robots.txt는 특정 파일과 폴더 만 필요하며 모든 것을 허용하지 않습니다.

분류에서Dev

.htaccess는 /robots.txt를 /robots.txt/로 리디렉션합니다.

분류에서Dev

Python BeautifulSoup 및 요청 웹 스크랩

분류에서Dev

BeautifulSoup 및 요청 구문 분석 문제

분류에서Dev

.txt 파일에 대한 POST 요청

분류에서Dev

robots.txt-사용자 에이전트 블록 사이에 빈 줄이 필요합니까, 아니면 선택 사항입니까?

분류에서Dev

해커에게 중요하고 비밀 경로를 알리기 위해 robots.txt 취약성을 해결하는 방법은 무엇입니까?

분류에서Dev

헤더 페이지 robots.txt 허용 안함

분류에서Dev

Angular Build-Config : 조건부 파일 (robots.txt) 추가

분류에서Dev

robots.txt는 홈페이지 만 표시

분류에서Dev

robots.txt.dist는 무엇에 사용됩니까?

분류에서Dev

여러 도메인에 대한 robots.txt 파일 배치

분류에서Dev

WordPress 용 Robots.txt가 루트 디렉토리에 없을 때

분류에서Dev

Python에서 robots.txt의 내용을 읽고 인쇄

분류에서Dev

호출시 Magento CE 1.9.0.1 robots.txt가 표시되지 않음

분류에서Dev

검색 스크립트가 robots.txt를 무시 함

분류에서Dev

wget -m이 robots.txt를 삽입합니까?

분류에서Dev

codeigniter의 robots.txt-보기 / 기능 허용

Related 관련 기사

  1. 1

    robots.txt에 HTML 요소 추가

  2. 2

    robots.txt가 불완전합니다. 어떻게 되나요?

  3. 3

    Microsoft SkyDrive의 Robots.txt

  4. 4

    Robots.TXT Disallow 구문

  5. 5

    웹 크롤러가 robots.txt URL 또는 태그를 따르나요?

  6. 6

    요청 VS Urllib 2

  7. 7

    Angular 8 사이트 맵 및 robots.txt

  8. 8

    Magento CE 1.9.0.1 robots.txt not showing when called

  9. 9

    Robots.txt 및 하위 폴더

  10. 10

    What does double slash (//) directory mean in robots.txt?

  11. 11

    Robots.txt에서 허용 및 금지

  12. 12

    robots.txt는 특정 파일과 폴더 만 필요하며 모든 것을 허용하지 않습니다.

  13. 13

    .htaccess는 /robots.txt를 /robots.txt/로 리디렉션합니다.

  14. 14

    Python BeautifulSoup 및 요청 웹 스크랩

  15. 15

    BeautifulSoup 및 요청 구문 분석 문제

  16. 16

    .txt 파일에 대한 POST 요청

  17. 17

    robots.txt-사용자 에이전트 블록 사이에 빈 줄이 필요합니까, 아니면 선택 사항입니까?

  18. 18

    해커에게 중요하고 비밀 경로를 알리기 위해 robots.txt 취약성을 해결하는 방법은 무엇입니까?

  19. 19

    헤더 페이지 robots.txt 허용 안함

  20. 20

    Angular Build-Config : 조건부 파일 (robots.txt) 추가

  21. 21

    robots.txt는 홈페이지 만 표시

  22. 22

    robots.txt.dist는 무엇에 사용됩니까?

  23. 23

    여러 도메인에 대한 robots.txt 파일 배치

  24. 24

    WordPress 용 Robots.txt가 루트 디렉토리에 없을 때

  25. 25

    Python에서 robots.txt의 내용을 읽고 인쇄

  26. 26

    호출시 Magento CE 1.9.0.1 robots.txt가 표시되지 않음

  27. 27

    검색 스크립트가 robots.txt를 무시 함

  28. 28

    wget -m이 robots.txt를 삽입합니까?

  29. 29

    codeigniter의 robots.txt-보기 / 기능 허용

뜨겁다태그

보관