정규 표현식은 태그 기사에서 모두 필터링

debugcn 에 게시 Dev

Fernando

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-01975-8에 게시 된 기사에서 모든 콘텐츠를 가져 오려고합니다. 정보가 태그에 있음을 발견했습니다.

<article><div...><..> information.... <></article>

나는 다음과 같은 것을 시도하고 있습니다.

art_sections<-regexpr("<article (.*)?>(.[0-9]*)</article>",thepage)

하지만 정보를 검색 할 수는 없습니다 ..

어떻게 해결할 수 있는지 알고 싶습니다.

wp78de

이것은 정규식 질문이 아니라 라이브러리를 사용하여 R을 사용한 웹 스크랩에 관한 것 rvest입니다.

다음은 시작하는 데 도움이되는 몇 가지 샘플 코드와 몇 가지 링크 아래입니다.

#Loading the rvest package
library('rvest')
#Specifying the url for desired website to be scraped
url <- 'https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-01975-8'
#Reading the HTML code from the website
webpage <- read_html(url)
article_html <- html_nodes(webpage,'article')
#Converting the ranking data to text
html_text(article_html)

마지막으로 텍스트를 정리하려면 stringrie를 살펴보십시오.

library(stringr)
str_replace_all(x, "[\r\n]" , "")

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

정규 표현식은 태그 기사에서 모두 필터링

정규 표현식은 태그 기사에서 모두 필터링

정규식 : 태그를 제외한 행에서 모두 선택

정규식을 사용하여 Windows 이벤트 로그에서 두 번째 계정 이름 만 필터링

rubocop에서 "모호한 정규 표현식 리터럴"은 무엇입니까?

정규식 : <> 태그에서 모든 연산자 (쉼표) 삭제

두 특정 태그 사이의 모든 문자 제거 (Java 정규식)

필터가있는 태그 사이의 정규식

정규식-<td> 태그 사이의 모든 항목 찾기

정규식을 사용한 로그 파일 모니터링

정규 표현식으로 XML 상위 태그 가져 오기

정규식을 사용하여 두 개의 HTML 태그에서 찾기 / 바꾸기

Qt에서 정규식을 사용하여 두 태그 사이의 문자열 찾기

정규 표현식을 통해 파이썬에서 특정 문자 (모든 발생)로 끝나는 텍스트 필터링

PHP의 자식 태그에서 XML을 필터링하고 부모 태그를 반환합니다.

정규식은이 또는 그 전에 모두 선택

Django-taggit-태그가 지정된 모든 개체를 필터링하고 각 태그에 대해 반복하는 방법은 무엇입니까?

정규식과 두 번째 파일을 사용하여 .txt 파일 필터링

정규 표현식 "어떤 순서로든 세 가지 모두"

정규 표현식 "어떤 순서로든 세 가지 모두"

Powershell은 두 태그 사이의 정규식을 대체합니다.

정규식 표현식을 사용하는 Flask SQLAlchemy 필터

태그 간 내부 데이터 가져 오기 (정규식)

Shopify에서 특정 태그를 포함하여 모든 Blog.Articles를 필터링하는 방법은 무엇입니까?

정규식 : 하나의 특정 html 태그에서 이러한 모든 특정 단어 찾기 / 삭제

두 개의 태그 필드, 즉 동일한 모델에 두 개의 태그 지정 가능 관리자를 갖는 방법은 무엇입니까?

정규식 : <!-주석-> 태그 / 필드 사이의 단어 검색 및 바꾸기

문자열 내 구두점을 무시하는 ArrayList <String> 및 필터링에 사용되는 정규식 일치

대소 문자를 구분하지 않는 모드에서 명명 된 캡처 링 그룹의 "in"단어에서 정규 표현식이 잘립니다.

정규식 : 특정 태그로 시작하고 다른 태그로 끝나는 모든 줄 찾기

정규식 찾기 및 <div class = "customclass"> 및 </ div> 태그 사이에서 바꾸기