xml.etree.ElementTree를 사용하여 html을 구문 분석 할 수 없습니다.

debugcn 에 게시 Dev

매튜

google.com의 xml을 구문 분석하려고하지만 '잘 형성되지 않은'오류가 발생합니다. 왜 이런거야? 감사

➜  testing cat code.py
from urllib.request import urlopen; from xml.etree.ElementTree import fromstring
fromstring(urlopen('https://www.google.com').read().replace(b'<!doctype html>',b'<!DOCTYPE html>'))
➜  testing python3 code.py
Traceback (most recent call last):
  File "code.py", line 2, in <module>
    fromstring(urlopen('https://www.google.com').read().replace(b'<!doctype html>',b'<!DOCTYPE html>'))
  File "/usr/local/Cellar/python/3.7.7/Frameworks/Python.framework/Versions/3.7/lib/python3.7/xml/etree/ElementTree.py", line 1315, in XML
    parser.feed(text)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 1, column 1826
➜  testing

잭 플리 팅

XML 구문 분석기로 HTML을 구문 분석하려고하기 때문에 오류 메시지가 표시 될 수 있습니다. 작동하지 않습니다. HTML 파서가있는 라이브러리를 사용해보십시오. 또한 대신 요청이있는 페이지를 가져 오는 것이 좋습니다. 그래서 함께 :

import requests
import lxml.html as lh

req = requests.get('https://www.google.com')
lh.fromstring(req.text)

작동합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

xml.etree.ElementTree를 사용하여 html을 구문 분석 할 수 없습니다.

xml.etree.ElementTree를 사용하여 html을 구문 분석 할 수 없습니다.

C #을 사용하여 Xml을 구문 분석 할 수 없습니다.

간단한 xml을 사용하여 구문 분석 할 수 없습니다.

Google Apps 스크립트를 사용하여 SOAP XML 응답을 구문 분석 할 수 없습니다.

Python을 사용하여 XML에서 태그를 구문 분석 할 수 없습니다.

xml.etree.ElementTree : OSError : 여러 파일을 구문 분석 할 때 [Errno 22]

Python 모듈 xml.etree.ElementTree를 사용하여 약간 복잡한 XML을 구문 분석하고 값을 목록에 저장합니다.

xml.etree.ElementTree를 사용한 Python xml 구문 분석이 작동하지 않습니다.

dojo를 사용하여 JSON을 구문 분석 할 수 없습니다.

구문 분석을 사용하여 쿼리를 검색 할 수 없습니다.

Express를 사용하여 GET 요청을 구문 분석 할 수 없습니다.

NewtonSoft JSONConvert를 사용하여 JSON을 구문 분석 할 수 없습니다.

xmldom 또는 etree를 사용하여 Python을 사용하여 XML 구문 분석

로컬 시스템에서 javascript HTML DOM을 사용하여 xml 데이터를 구문 분석 할 수 없습니다.

ElementTree를 사용하여 XML 속성을 변수로 구문 분석

Grok를 사용하여 동적 xml 구조 로그 내용을 구문 분석 할 수 있습니까?

Python 및 xml.etree를 사용하여 XML 구문 분석

XDocument를 사용하여 XML을 구문 분석하는 동안 네임 스페이스를 확인할 수 없습니다.

Elasticsearch는 사용자 지정 형식을 사용하여 날짜를 구문 분석 할 수 없습니다.

Elasticsearch는 사용자 지정 형식을 사용하여 날짜를 구문 분석 할 수 없습니다.

Hive Regex Serde를 사용하여 문자열을 구문 분석 할 수 없습니다.

CentOS에서 Tika를 사용하여 Outlook 본문을 구문 분석 할 수 없습니다.

REGEX를 사용하여 Java에서 점이있는 문자열을 구문 분석 할 수 없습니다.

PostgreSQL이 to_date ()를 사용하여 현재까지 문자열을 구문 분석 할 수 없습니다.

비누 본체를 푼 후 XMl을 구문 분석 할 수 없습니다.

JSON.parse 함수를 사용하여 레일의 Ruby에서 JSON을 구문 분석 할 수 없습니다.

WolfSSL을 사용하여 PKCS7 인증서를 구문 분석 할 수 없지만 OpenSSL로 구문 분석 할 수 있습니다.

HttpPost를 만든 직후 AsyncTask에서 XML을 구문 분석하여 검색 할 수 있습니까? SAX 구문 분석 사용

Python에서 etree를 사용하여 XML 구문 분석

Gson을 사용하여 Json 배열을 구문 분석 할 수 없습니다.