Beautiful Soup을 사용하여 자바 스크립트 텍스트에 액세스

debugcn 에 게시 Dev

lela_rib

IMDB 웹 사이트에 수상 정보를 저장하고 싶지만 필요한 자바 스크립트 텍스트에 액세스 할 수 없습니다.

import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup

urls = [
    'https://www.imdb.com/event/ev0000003/2000',
    'https://www.imdb.com/event/ev0000003/2001',
]

for url in urls:
    response = requests.get(url_test).content
    soup = BeautifulSoup(response, 'html.parser')
    soup.find_all('script', {'type':'text/javascript'})

이제 범주 정보에만 액세스하려면 어떻게해야합니까?

"categories":[{"categoryName":"Best Actor in a Leading Role","nominations":[{"primaryNominees":[{"name":"Kevin Spacey","note":null,"imageUrl":.....

다른 상과 수년 동안이 작업을 수행해야하므로 json 파일에 저장하는 것이 제 아이디어입니다.

{"award": "oscars",  
 "year": "2000",  
 "data": [{"categoryName":"Best Actor in a Leading Role","nominations":[{"primaryNominees":[{"name":"Kevin Spacey","note":null,"imageUrl":.....  
}

안드레이 케 슬리

데이터는 페이지의 javascript에 저장되므로 예를 들어 regexp를 통해 액세스 할 수 있습니다. 데이터를 구문 분석하려면 json모듈 을 사용할 수 있습니다 .

예를 들면 :

import re
import json
import requests

urls = [
    'https://www.imdb.com/event/ev0000003/2000',
    'https://www.imdb.com/event/ev0000003/2001',
]

for url in urls:
    response = requests.get(url).text

    data = json.loads( re.findall(r'IMDbReactWidgets\.NomineesWidget\.push.*?(\{.*\})', response)[0] )

    # print(json.dumps(data, indent=4)) # <-- comment this out to print all data

    for award in data['nomineesWidgetModel']['eventEditionSummary']['awards']:
        if award['awardName'] != 'Oscar':
            continue
        for category in award['categories']:
            print(category['categoryName'])

    print('-' * 80)

인쇄물:

Best Actor in a Leading Role
Best Actor in a Supporting Role
Best Actress in a Leading Role
Best Actress in a Supporting Role
Best Art Direction-Set Decoration
Best Cinematography
Best Costume Design
Best Director
Best Documentary, Features
Best Documentary, Short Subjects
Best Effects, Sound Effects Editing
Best Effects, Visual Effects
Best Film Editing
Best Foreign Language Film

...and so on.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-1

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Beautiful Soup을 사용하여 자바 스크립트 텍스트에 액세스

Beautiful Soup을 사용하여 자바 스크립트 텍스트에 액세스

요청과 Beautiful Soup을 사용하여 자바 스크립트를 사용하는 웹 사이트를 긁어내는 방법은 무엇입니까?

Beautiful Soup을 사용하여 Kickstarter에서 프로젝트 URL 스크랩

swift3을 사용하여 ID없이 자바 스크립트 <td 테이블 데이터에 액세스

자바 스크립트 배열을 사용하여 텍스트 정렬

자바 스크립트를 사용하여 문자열을 텍스트 영역에 추가하는 방법

자바 스크립트에서 ID를 사용하여 텍스트 상자의 값을 얻는 방법

자바 스크립트를 사용하여 드롭 다운 목록 값을 텍스트 상자에 전달

자바 스크립트 만 사용하여 DOM 요소에 액세스

자바 스크립트를 사용하여 IFrame의 HTML에 액세스

자바 스크립트를 사용하여 Iframe 정보에 액세스

자바 스크립트를 사용하여 옥 요소에 액세스

자바 스크립트를 사용하여 코드 HTML을 텍스트 영역에 삽입하는 방법

iOS의 특정 위치에서 자바 스크립트 기능을 사용하여 uiwebview에 텍스트 추가

자바 스크립트를 사용하여 웹 사이트에서 텍스트를 복사하는 동안 텍스트 서식을 포함하는 방법

Beautiful Soup-find_all을 사용하여 여러 웹 페이지에서 텍스트 추출

텍스트 색인을 사용하여 자바 스크립트 강조 텍스트

호출을 사용하여 양식의 텍스트 상자에 액세스

URL을 여는 자바 스크립트 + 사용자가 입력 한 텍스트

param = ''일 때 Beautiful Soup을 사용하여 속성의 매개 변수에 액세스

자바 스크립트를 사용하여 텍스트 교체

자바 스크립트를 사용하여 텍스트 전송

자바 스크립트를 사용하여 텍스트 정리

자바 스크립트를 사용하여 텍스트 상자에 값 할당

Beautiful Soup을 사용하여 Python에서 span 태그 내부의 텍스트를 잡는 방법

Python의 Beautiful Soup을 사용하여 특정 span 태그에서 텍스트를 추출 할 수 없습니다.

BeautifulSoup을 사용하여 자바 스크립트로 삽입 된 텍스트 스크랩

문자열 (C #)을 사용하여 다른 스크립트에서 변수 값에 액세스

HtmlUnit을 사용하여 자바 스크립트 실행 오류

자바 스크립트 기능을 사용하여 탭 열기