아름다운 수프로 긴 웹 페이지를 어떻게 구문 분석 할 수 있습니까?

debugcn 에 게시 Dev

아티 라

https://www.blogforacure.com/members.php 링크에서 웹 페이지를 구문 분석하기 위해 다음 코드를 사용하고 있습니다 . 코드는 주어진 페이지의 모든 구성원의 링크를 반환 할 것으로 예상됩니다.

    from bs4 import BeautifulSoup
    import urllib
    r = urllib.urlopen('https://www.blogforacure.com/members.php').read()
    soup = BeautifulSoup(r,'lxml')
    headers = soup.find_all('h3')
    print(len(headers))
    for header in headers:
       a = header.find('a')
       print(a.attrs['href'])

하지만 위 페이지에서 처음 10 개의 링크 만 얻습니다. prettify 옵션을 인쇄하는 동안에도 처음 10 개의 링크 만 표시됩니다.

Alecxe

결과는 https://www.blogforacure.com/site/ajax/scrollergetentries.php엔드 포인트에 AJAX 요청을 작성하여 동적으로로드됩니다 .

requests웹 스크래핑 세션 을 유지 하여 코드에서 시뮬레이션하십시오 .

from bs4 import BeautifulSoup
import requests

url = "https://www.blogforacure.com/site/ajax/scrollergetentries.php"
with requests.Session() as session:
    session.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'}
    session.get("https://www.blogforacure.com/members.php")

    page = 0
    members = []
    while True:
        # get page
        response = session.post(url, data={
            "p": str(page),
            "id": "#scrollbox1"
        })
        html = response.json()['html']

        # parse html
        soup = BeautifulSoup(html, "html.parser")
        page_members = [member.get_text() for member in soup.select(".memberentry h3 a")]
        print(page, page_members)
        members.extend(page_members)

        page += 1

현재 페이지 번호와 멤버 이름을 누적 한 페이지 당 멤버 목록을 목록으로 인쇄합니다 members. 이름이 포함되어 있으므로 인쇄 된 내용을 게시하지 않습니다.

의도적으로 루프를 끝없이 떠났습니다. 종료 조건을 파악하십시오. 때 수 있음 response.json()오류가 발생합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-11

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

아름다운 수프로 긴 웹 페이지를 어떻게 구문 분석 할 수 있습니까?

아름다운 수프로 긴 웹 페이지를 어떻게 구문 분석 할 수 있습니까?

더 긴 문자열에서이 문자열을 어떻게 구문 분석 할 수 있습니까?

웹 페이지의 모든 링크를 구문 분석 할 수 없습니다.

프레임 셋이있는 웹 페이지를 구문 분석 할 수 없습니다.

C #에서 SOAP 웹 서비스를 어떻게 구문 분석 할 수 있습니까?

이 날짜를 Javascript로 어떻게 구문 분석 할 수 있습니까?

Python을 사용하여 동적 페이지를 어떻게 구문 분석 할 수 있습니까?

다른 언어로 날짜를 어떻게 구문 분석 할 수 있습니까?

JSON 데이터 구문 분석이 json 데이터를 어떻게 구문 분석 할 수 있습니까?

이 JSON 정보를 어떻게 구문 분석 할 수 있습니까?

이 datetime 문자열을 어떻게 구문 분석 할 수 있습니까?

값만 있고 이름이없는 JSON을 어떻게 구문 분석 할 수 있습니까?

설치된 WinForm 프로젝트간에 데이터를 어떻게 구문 분석 할 수 있습니까?

SQL : 전체 이름에서 이름, 성 및 직함을 어떻게 구문 분석 할 수 있습니까?

이 DateTime을 어떻게 구문 분석 할 수 있습니까? (T & Z)

키없이 JSON 파일을 어떻게 구문 분석 할 수 있습니까?

이 JSON을 Ruby에서 어떻게 구문 분석 할 수 있습니까?

문자 수를 기준으로 문자열을 어떻게 구문 분석 할 수 있습니까?

GSON - 어떻게이 같은 이름을 가진 JSONArrays하지만, 다른 매개 변수를 구문 분석 할 수 있습니까?

curl을 사용하여 웹 페이지의 데이터를 구문 분석 할 수 없습니다.

이 URL을 아름다운 수프로 어떻게 구문 분석합니까? URL은 어떤 형식입니까?

웹 페이지에서 다른 제품 링크를 구문 분석 할 수 없습니다.

웹 페이지에서 다른 포스터에 대한 링크를 구문 분석 할 수 없습니다.

페이지가 매겨진 REST API를 teiid 데이터 소스로 어떻게 구문 분석 할 수 있습니까?

R의 분산 분석에서 rsquare를 어떻게 구할 수 있습니까?

다음 문자열을 DateTime으로 어떻게 구문 분석 할 수 있습니까?

이 Json 객체를 Java 객체로 어떻게 구문 분석 할 수 있습니까?

'... & body ='를 포함 할 때 어떻게 html을 XML로 구문 분석 할 수 있습니까?

다른 listView에서 jsoup으로 구문 분석 된 HTTP 보호 URL의 이미지를 어떻게 설정할 수 있습니까?

이 JSON 포켓몬 사전을 어떻게 구문 분석 할 수 있습니까? (스위프트 3)