링크 내부의 텍스트에 대한 XML 도관 구문 분석

debugcn 에 게시 Dev

맥 베어 홀든

아래 Html 페이지에서 텍스트 내용을 추출하고 싶습니다. 의 모든 단락 <div>. 내가 사용하는 XML-도관 HTML 구문 분석 패키지를 다음과 같은 코드를 함께했다 :

getWebPageContents :: Url -> IO [T.Text]
getWebPageContents u = do
    cursor <- cursorFor u
    return $ cursor $// filter &/ content


filter = element "div" >=> attributeIs "id" "article-body-blocks" &// element "p"

이것은 대부분의 텍스트를 반환하지만 링크의 텍스트는 반환하지 않습니다 ( "오늘의 데일리 미러의 첫 페이지" ).

누구든지 도울 수 있습니까? 예제 html

마이클 스노이 만

하위 항목p 뿐만 아니라 태그 의 모든 하위 항목 으로 필터링해야합니다 . 당신은 아마 교체해야 &/ content와 함께 &// content.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-31

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

링크 내부의 텍스트에 대한 XML 도관 구문 분석

링크 내부의 텍스트에 대한 XML 도관 구문 분석

쉘에 의한 xml 구문 분석

SQL 쿼리의 열 값에 대한 XML 구문 분석

Pl / Sql에서 xml 형식의 큰 텍스트 구문 분석

rvest 또는 xml을 사용하여 다음 페이지에 대한 링크를 구문 분석합니까?

외부 URL에서 스크립트를 구문 분석 할 때 간단한 XML 오류

PHP의 XML 내부에서 HTML 태그 구문 분석

디버그 C # XML 구문 분석에 대한 도움이 필요합니다.

간단한 XML 텍스트 구문 분석

어떻게 XML 태그 외부 텍스트를 구문 분석?

XML에서지도 구문 분석

자동 닫는 태그 사이의 텍스트에 대한 .trs XML 파일을 구문 분석하는 방법은 무엇입니까?

MySQL 데이터베이스에 대한 XML 구문 분석

도중에 XML 페이지에서 링크를 구문 분석하고 추가하는 Crawlspider

XML에 대한 질문 / 문서 끝 부분의 추가 내용

SQL 쿼리에 대한 xml 구문 분석 데이터 문제

JSoup html 파일에서 텍스트 및 링크를 순서대로 구문 분석

노드 내에서 XML 구문 분석

레이블에 대한 복잡한 XML 구문 분석

구문 분석 결과의 스크랩 링크 목록

여러 줄의 관련 데이터에 대한 로그 파일 구문 분석

한 줄짜리 powershell 스크립트의 구문 분석 오류

스크래핑 태스크에 대한 URL 구문 분석

스크립트 내부의 단락 텍스트에 대한 간단한 bash / 스크립트 서식 지정 도구?

BeautifulSoup을 사용한 XML 구문 분석 : 동일한 문서 내에서 동일한 ID로 여러 텍스트 콘텐츠 검색

XML 구문 분석을위한 JAXB의 대안

자바 스크립트에서 UTF-8 XML 구문 분석

URL에서 자바 스크립트로 XML 구문 분석

날씬한 구성 요소 내부의 마크 다운 구문 분석

C #에서 XML 구문 분석에 대한 쿼리?