Python으로 데이터 스크래핑 및 DevTools와 다른 HTML 트리 수신

debugcn 에 게시 Dev

올렉 사브 추크

zara.com 사이트에서 데이터를 스크랩하려고합니다. 목록에있는 항목 그룹으로 상위 요소를 구문 분석하는 방법을 이미 알고 있지만 더 깊이 파고 각 항목 링크를 열고 이에 대한 추가 정보를 얻고 싶습니다. .

그래서 저는 이런 종류의 코드를 사용했습니다.

import requests
import time
from bs4 import BeautifulSoup



ListWithRequests = ['https://www.zara.com/nl/en/plain-shirt-p06608389.html'] # In this example only one item

for item in ListWithRequests:

    response = requests.get(item,verify=False)
    soup2 = BeautifulSoup(response.text, "html.parser")
    soup2.prettify()
    time.sleep(1)
    f = open("demo.html","w+")
    f.write(response.text)

예를 들어 항목의 가격을 받고 싶습니다. 개발 도구에서는 블록입니다.

<span class="main_price">25.95 EUR</span>

또는 항목 ID

<div clas="product-info-wrapper _product-info">
  <p class="product-color">
    <span class="_colorName">**White**
    </span>
  </p>
</div>

그러나 demo.html 파일 에서 완전히 다른 트리를 수신하고 있으며 필요한 요소를 찾을 수 없습니다.

내가 뭘 잘못하고 있는지 조언하십시오

αԋɱҽԃ αμєяιcαη

페이지를 통해로드 JavaScript따라서, bs4그것을 렌더링 할 수 없습니다. selenium이러한 경우에 사용할 수 있지만 찾고있는 데이터가 실제로 script태그 내에 표시되어 쉽게로드 할 수 JSON있거나 빠른 캐치를 위해 re다음을 사용했습니다 .

import requests
import re


def main(url):
    r = requests.get(url)
    price = re.search(r'\"price\": \"(.*?)\"', r.text).group(1)
    print(price)


main("https://www.zara.com/nl/en/plain-shirt-p06608389.html")

산출:

25.95

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Python으로 데이터 스크래핑 및 DevTools와 다른 HTML 트리 수신

Python으로 데이터 스크래핑 및 DevTools와 다른 HTML 트리 수신

HTML, Python, 웹 스크래핑에서 특정 데이터 수신

다른 컨텍스트 브로커 및 작업 공간 탭에서 데이터를 수신하는 맵 위젯

Python 스크립트에서 데이터 전달 및 수신

선택기의 델리게이트 및 데이터 소스를 신속하게 다른 클래스로 아웃소싱

Python 3.5 : 스트리핑 html 코드로 웹 스크래핑

다른 열을 기반으로 데이터 프레임의 텍스트 및 개수 토큰 화

Python 2.7 및 Beautifulsoup 4로 웹 사이트 스크래핑

Ruby 및 Nokogiri로 HTML 테이블 스크래핑

DataTables 및 Ajax를 통해 서버 측 데이터 처리를 수행하는 웹 사이트에서 데이터 스크래핑

웹 스크래핑을 시도합니다. 다운로드 한 HTML 코드는 라이브 사이트의 코드와 약간 다릅니다.

vba의 웹 스크래핑-작업 데이터 구조화 및 왼쪽에서 오른쪽 셀로 쓰기

데이터 스트림을 통해 C #으로 데이터 수신 및 boost : asio http 서버를 통해 데이터 읽기 예제

셀레늄, 아름다운 수프, 파이썬으로 웹 스크래핑-특정 텍스트 찾기 문제

오류 : "배열을 개체로 변환 할 수 없음"데이터 스크래핑 스크립트

다른 클래스에서 수신 한 AsyncTask 핸들 메시지 및 업데이트 진행률

Python 웹 스크래핑 : Javascript 함수 대신 HTML

다른 스크립트로 자바 스크립트 래핑

rvest로 스크래핑-데이터에 <table> 태그가 있지만 html_table ()에서 찾을 수 없음

웹 스크래핑 BS4-다른 URL의 리볼트를 테이블로 정렬

테스트 및 프로덕션에서 다른 데이터베이스 사용

열에서 다른 열로 데이터 복사 및 null 케이스 처리

대용량 텍스트 파일에서 데이터를 가져와 다른 대용량 텍스트 파일의 데이터를 효율적으로 교체 (Python)

Wordpress 데이터베이스 쿼리 및 HTML 목록으로 출력

웹 스크래핑 : 정보 수집 후 빈 데이터 세트

SSRS 차트. 데이터 세트와 다른 방식으로 데이터 표시

rvest로 웹 사이트 스크래핑 : "현재 페이지가 html로 보이지 않습니다."

Python 및 Pyqtgraph에서 서로 다른 그래프에 여러 데이터 스트림을 그리는 모범 사례

R을 사용한 웹 스크래핑-전체 웹 사이트 데이터가로드되지 않습니다.

LLVM IR을 다른 트리플렛 및 데이터 레이아웃으로 재 컴파일 할 수 있습니까?