아름다운 수프로 긴 웹 페이지를 어떻게 구문 분석 할 수 있습니까?

아티 라

https://www.blogforacure.com/members.php 링크에서 웹 페이지를 구문 분석하기 위해 다음 코드를 사용하고 있습니다 . 코드는 주어진 페이지의 모든 구성원의 링크를 반환 할 것으로 예상됩니다.

    from bs4 import BeautifulSoup
    import urllib
    r = urllib.urlopen('https://www.blogforacure.com/members.php').read()
    soup = BeautifulSoup(r,'lxml')
    headers = soup.find_all('h3')
    print(len(headers))
    for header in headers:
       a = header.find('a')
       print(a.attrs['href'])

하지만 위 페이지에서 처음 10 개의 링크 만 얻습니다. prettify 옵션을 인쇄하는 동안에도 처음 10 개의 링크 만 표시됩니다.

Alecxe

결과는 https://www.blogforacure.com/site/ajax/scrollergetentries.php엔드 포인트에 AJAX 요청을 작성하여 동적으로로드됩니다 .

requests웹 스크래핑 세션 유지 하여 코드에서 시뮬레이션하십시오 .

from bs4 import BeautifulSoup
import requests

url = "https://www.blogforacure.com/site/ajax/scrollergetentries.php"
with requests.Session() as session:
    session.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'}
    session.get("https://www.blogforacure.com/members.php")

    page = 0
    members = []
    while True:
        # get page
        response = session.post(url, data={
            "p": str(page),
            "id": "#scrollbox1"
        })
        html = response.json()['html']

        # parse html
        soup = BeautifulSoup(html, "html.parser")
        page_members = [member.get_text() for member in soup.select(".memberentry h3 a")]
        print(page, page_members)
        members.extend(page_members)

        page += 1

현재 페이지 번호와 멤버 이름을 누적 한 페이지 당 멤버 목록을 목록으로 인쇄합니다 members. 이름이 포함되어 있으므로 인쇄 된 내용을 게시하지 않습니다.

의도적으로 루프를 끝없이 떠났습니다. 종료 조건을 파악하십시오. 때 수 있음 response.json()오류가 발생합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

더 긴 문자열에서이 문자열을 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

웹 페이지의 모든 링크를 구문 분석 할 수 없습니다.

분류에서Dev

프레임 셋이있는 웹 페이지를 구문 분석 할 수 없습니다.

분류에서Dev

C #에서 SOAP 웹 서비스를 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

이 날짜를 Javascript로 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

Python을 사용하여 동적 페이지를 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

다른 언어로 날짜를 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

JSON 데이터 구문 분석이 json 데이터를 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

이 JSON 정보를 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

이 datetime 문자열을 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

값만 있고 이름이없는 JSON을 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

설치된 WinForm 프로젝트간에 데이터를 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

SQL : 전체 이름에서 이름, 성 및 직함을 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

이 DateTime을 어떻게 구문 분석 할 수 있습니까? (T & Z)

분류에서Dev

키없이 JSON 파일을 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

이 JSON을 Ruby에서 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

문자 수를 기준으로 문자열을 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

GSON - 어떻게이 같은 이름을 가진 JSONArrays하지만, 다른 매개 변수를 구문 분석 할 수 있습니까?

분류에서Dev

curl을 사용하여 웹 페이지의 데이터를 구문 분석 할 수 없습니다.

분류에서Dev

이 URL을 아름다운 수프로 어떻게 구문 분석합니까? URL은 어떤 형식입니까?

분류에서Dev

웹 페이지에서 다른 제품 링크를 구문 분석 할 수 없습니다.

분류에서Dev

웹 페이지에서 다른 포스터에 대한 링크를 구문 분석 할 수 없습니다.

분류에서Dev

페이지가 매겨진 REST API를 teiid 데이터 소스로 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

R의 분산 분석에서 rsquare를 어떻게 구할 수 있습니까?

분류에서Dev

다음 문자열을 DateTime으로 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

이 Json 객체를 Java 객체로 어떻게 구문 분석 할 수 있습니까?

분류에서Dev

'... & body ='를 포함 할 때 어떻게 html을 XML로 구문 분석 할 수 있습니까?

분류에서Dev

다른 listView에서 jsoup으로 구문 분석 된 HTTP 보호 URL의 이미지를 어떻게 설정할 수 있습니까?

분류에서Dev

이 JSON 포켓몬 사전을 어떻게 구문 분석 할 수 있습니까? (스위프트 3)

Related 관련 기사

  1. 1

    더 긴 문자열에서이 문자열을 어떻게 구문 분석 할 수 있습니까?

  2. 2

    웹 페이지의 모든 링크를 구문 분석 할 수 없습니다.

  3. 3

    프레임 셋이있는 웹 페이지를 구문 분석 할 수 없습니다.

  4. 4

    C #에서 SOAP 웹 서비스를 어떻게 구문 분석 할 수 있습니까?

  5. 5

    이 날짜를 Javascript로 어떻게 구문 분석 할 수 있습니까?

  6. 6

    Python을 사용하여 동적 페이지를 어떻게 구문 분석 할 수 있습니까?

  7. 7

    다른 언어로 날짜를 어떻게 구문 분석 할 수 있습니까?

  8. 8

    JSON 데이터 구문 분석이 json 데이터를 어떻게 구문 분석 할 수 있습니까?

  9. 9

    이 JSON 정보를 어떻게 구문 분석 할 수 있습니까?

  10. 10

    이 datetime 문자열을 어떻게 구문 분석 할 수 있습니까?

  11. 11

    값만 있고 이름이없는 JSON을 어떻게 구문 분석 할 수 있습니까?

  12. 12

    설치된 WinForm 프로젝트간에 데이터를 어떻게 구문 분석 할 수 있습니까?

  13. 13

    SQL : 전체 이름에서 이름, 성 및 직함을 어떻게 구문 분석 할 수 있습니까?

  14. 14

    이 DateTime을 어떻게 구문 분석 할 수 있습니까? (T & Z)

  15. 15

    키없이 JSON 파일을 어떻게 구문 분석 할 수 있습니까?

  16. 16

    이 JSON을 Ruby에서 어떻게 구문 분석 할 수 있습니까?

  17. 17

    문자 수를 기준으로 문자열을 어떻게 구문 분석 할 수 있습니까?

  18. 18

    GSON - 어떻게이 같은 이름을 가진 JSONArrays하지만, 다른 매개 변수를 구문 분석 할 수 있습니까?

  19. 19

    curl을 사용하여 웹 페이지의 데이터를 구문 분석 할 수 없습니다.

  20. 20

    이 URL을 아름다운 수프로 어떻게 구문 분석합니까? URL은 어떤 형식입니까?

  21. 21

    웹 페이지에서 다른 제품 링크를 구문 분석 할 수 없습니다.

  22. 22

    웹 페이지에서 다른 포스터에 대한 링크를 구문 분석 할 수 없습니다.

  23. 23

    페이지가 매겨진 REST API를 teiid 데이터 소스로 어떻게 구문 분석 할 수 있습니까?

  24. 24

    R의 분산 분석에서 rsquare를 어떻게 구할 수 있습니까?

  25. 25

    다음 문자열을 DateTime으로 어떻게 구문 분석 할 수 있습니까?

  26. 26

    이 Json 객체를 Java 객체로 어떻게 구문 분석 할 수 있습니까?

  27. 27

    '... & body ='를 포함 할 때 어떻게 html을 XML로 구문 분석 할 수 있습니까?

  28. 28

    다른 listView에서 jsoup으로 구문 분석 된 HTTP 보호 URL의 이미지를 어떻게 설정할 수 있습니까?

  29. 29

    이 JSON 포켓몬 사전을 어떻게 구문 분석 할 수 있습니까? (스위프트 3)

뜨겁다태그

보관