아래 Html 페이지에서 텍스트 내용을 추출하고 싶습니다. 의 모든 단락 <div>
. 내가 사용하는 XML-도관 HTML 구문 분석 패키지를 다음과 같은 코드를 함께했다 :
getWebPageContents :: Url -> IO [T.Text]
getWebPageContents u = do
cursor <- cursorFor u
return $ cursor $// filter &/ content
filter = element "div" >=> attributeIs "id" "article-body-blocks" &// element "p"
이것은 대부분의 텍스트를 반환하지만 링크의 텍스트는 반환하지 않습니다 ( "오늘의 데일리 미러의 첫 페이지" ).
누구든지 도울 수 있습니까?
하위 항목p
뿐만 아니라 태그 의 모든 하위 항목 으로 필터링해야합니다 . 당신은 아마 교체해야 &/ content
와 함께 &// content
.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다