요청을 사용하여 웹 페이지에서 모든 표 형식 콘텐츠를 가져올 수 없습니다.

debugcn 에 게시 Dev

미투

웹 사이트에서 표 형식의 콘텐츠를 구문 분석하기 위해 Python으로 스크립트를 만들었습니다. 이제 내 스크립트가 랜딩 페이지의 콘텐츠를 구문 분석 할 수 있습니다. 그러나 NEXT PAGE그 페이지 하단에 클릭하면 50 개 이상의 결과를 보여주는 버튼이 있습니다.

웹 사이트 주소

나는 시도했다 (처음 50 개의 결과를 긁어 냄) :

import requests
from bs4 import BeautifulSoup

site_link = 'https://indiarailinfo.com/trains/passenger/0/0/0/0'

res = requests.get(site_link)
soup = BeautifulSoup(res.text,"lxml")
for items in soup.select("div[style='line-height:20px;']"):
    tds = [elem.get_text(strip=True) for elem in items.select("div")]
    print(tds)

요청을 사용하여 다음 페이지 버튼을 소모하는 해당 페이지에서 모든 표 형식의 콘텐츠를 가져 오려면 어떻게해야합니까?

추신 셀레늄을 사용하여 콘텐츠를 펼치는 방법을 알고 있으므로 브라우저 시뮬레이터와 관련된 솔루션은 내가 원하는 것이 아닙니다.

Balderman

다음 버튼을 클릭하면 실제로 https://indiarailinfo.com/trains/passenger/0/1?i=1&&kkk=1571329558457에 XHR을 수행합니다.

<button class="nextbtn" onclick="javascript:getNextTrainListPageBare($(this).parent(),'/trains/passenger/0/1?i=1&amp;');"><div>NEXT PAGE<br>the next 50 Trains will appear below</div></button>

따라서 'onclick'에서 데이터를 가져오고 URL을 작성하고 요청을 사용하여 HTTP GET을 수행하면됩니다.

반환 된 데이터는 다음과 같습니다.

https://pastebin.com/Nk0E5vHH

이제 BeautifulSoup을 사용하고 필요한 데이터를 추출하십시오.

아래 코드 (10을 필요한 번호로 대체)

import requests
from bs4 import BeautifulSoup

site_link = 'https://indiarailinfo.com/trains/passenger/0/{}'

for x in range(10):
    url = site_link.format(x)
    res = requests.get(url)
    soup = BeautifulSoup(res.text,"lxml")
    print('Data for url: {}'.format(url))
    for items in soup.select("div[style='line-height:20px;']"):
        tds = [elem.get_text(strip=True) for elem in items.select("div")]
        print(tds)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-03-31

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

요청을 사용하여 웹 페이지에서 모든 표 형식 콘텐츠를 가져올 수 없습니다.

요청을 사용하여 웹 페이지에서 모든 표 형식 콘텐츠를 가져올 수 없습니다.

요청을 사용하여 웹 페이지에서 표 형식 콘텐츠를 가져 오지 못했습니다.

요청을 사용하여 웹 페이지에서 일부 필드를 가져올 수 없습니다.

PHP에서 file_get_content를 사용하여 웹 사이트 콘텐츠를 가져올 수 없습니다.

요청을 사용하여 웹 페이지에서 부품 번호를 가져 오는 올바른 방법을 찾을 수 없습니다.

python-요청을 사용하여 수백 개의 웹 페이지에서 콘텐츠 가져 오기

Android에서 wrap_content를 사용하여 모든 콘텐츠를 표시 할 수 없습니다.

ASMX 웹 서비스를 사용하여 JSON 콘텐츠 유형에서 POST 요청시 매개 변수없는 생성자가 정의되지 않음

Python에서 BeautifulSoup을 사용하여 모든 p 요소의 텍스트를 가져올 수 없습니다.

cURL은 특정 웹 사이트의 콘텐츠를 가져올 수 없습니다.

웹 페이지 콘텐츠를 읽을 수 없습니다.

웹 페이지에서 양식을 가져올 수 없습니다.

$ .get ()을 사용하여 다른 웹 페이지에서 모든 콘텐츠 검색

요청을 사용하여 콘텐츠 웹 페이지 가져 오기

웹 페이지에서 json 형식의 데이터를 가져올 수 없습니다.

WebView는 웹 페이지의 모든 콘텐츠를 표시하지 않습니다.

요청을 사용하여 웹 페이지에서 일부 필드를 스크랩 할 수 없습니다.

nodejs를 사용하여 웹 사이트에서 URL을 가져올 수 없습니다.

Android에서 jsoup을 사용하여 웹 사이트를 가져올 수 없습니다.

변형의 색인을 검색하고이를 사용하여 콘텐츠를 가져올 수없는 이유는 무엇입니까?

Ruby를 사용하여 셀레늄 웹 드라이버에서 HAR 파일을 가져올 수 없습니다.

웹 사이트에 표시 할 Symfony 2 도구 모음을 가져올 수 없습니다.

Selenium Python을 사용하여 테이블 형식의 데이터를 가져올 수 없습니다.

요청이 불가능한 경우 bs4가 웹 페이지의 동적 콘텐츠를 가져올 수 있습니까?

OpenXml을 사용하여 Word 문서에서 페이지 수를 가져올 수 없습니다.

div를 확장하여 사용 가능한 모든 공간을 덮고 확장되는 모든 콘텐츠를 숨길 수있는 방법이 있습니까?

셀레늄을 사용하는 동안 링크에서 모든 데이터를 가져올 수 없습니다.

Python을 사용하여 테이블에서 모든 데이터를 가져 오는 동안 json 값을 가져올 수 없습니다.

JS에서 axios가있는 사이트에서 html 콘텐츠를 요청하는데 웹 사이트가 내 요청을 차단하고 있습니다.

Slim Framework를 사용하여 PUT 요청에서 본문을 가져올 수 없습니다.