정규 표현식은 태그 기사에서 모두 필터링

Fernando

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-01975-8에 게시 된 기사에서 모든 콘텐츠를 가져 오려고합니다. 정보가 태그에 있음을 발견했습니다.

<article><div...><..> information.... <></article>

나는 다음과 같은 것을 시도하고 있습니다.

art_sections<-regexpr("<article (.*)?>(.[0-9]*)</article>",thepage)

하지만 정보를 검색 할 수는 없습니다 ..

어떻게 해결할 수 있는지 알고 싶습니다.

wp78de

이것은 정규식 질문이 아니라 라이브러리를 사용하여 R을 사용한 웹 스크랩에 관한 것 rvest입니다.

다음은 시작하는 데 도움이되는 몇 가지 샘플 코드와 몇 가지 링크 아래입니다.

#Loading the rvest package
library('rvest')
#Specifying the url for desired website to be scraped
url <- 'https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-01975-8'
#Reading the HTML code from the website
webpage <- read_html(url)
article_html <- html_nodes(webpage,'article')
#Converting the ranking data to text
html_text(article_html)

마지막으로 텍스트를 정리하려면 stringrie를 살펴보십시오.

library(stringr)
str_replace_all(x, "[\r\n]" , "")

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

정규식 : 태그를 제외한 행에서 모두 선택

분류에서Dev

정규식을 사용하여 Windows 이벤트 로그에서 두 번째 계정 이름 만 필터링

분류에서Dev

rubocop에서 "모호한 정규 표현식 리터럴"은 무엇입니까?

분류에서Dev

정규식 : <> 태그에서 모든 연산자 (쉼표) 삭제

분류에서Dev

두 특정 태그 사이의 모든 문자 제거 (Java 정규식)

분류에서Dev

필터가있는 태그 사이의 정규식

분류에서Dev

정규식-<td> 태그 사이의 모든 항목 찾기

분류에서Dev

정규식을 사용한 로그 파일 모니터링

분류에서Dev

정규 표현식으로 XML 상위 태그 가져 오기

분류에서Dev

정규식을 사용하여 두 개의 HTML 태그에서 찾기 / 바꾸기

분류에서Dev

Qt에서 정규식을 사용하여 두 태그 사이의 문자열 찾기

분류에서Dev

정규 표현식을 통해 파이썬에서 특정 문자 (모든 발생)로 끝나는 텍스트 필터링

분류에서Dev

PHP의 자식 태그에서 XML을 필터링하고 부모 태그를 반환합니다.

분류에서Dev

정규식은이 또는 그 전에 모두 선택

분류에서Dev

Django-taggit-태그가 지정된 모든 개체를 필터링하고 각 태그에 대해 반복하는 방법은 무엇입니까?

분류에서Dev

정규식과 두 번째 파일을 사용하여 .txt 파일 필터링

분류에서Dev

정규 표현식 "어떤 순서로든 세 가지 모두"

분류에서Dev

정규 표현식 "어떤 순서로든 세 가지 모두"

분류에서Dev

Powershell은 두 태그 사이의 정규식을 대체합니다.

분류에서Dev

정규식 표현식을 사용하는 Flask SQLAlchemy 필터

분류에서Dev

태그 간 내부 데이터 가져 오기 (정규식)

분류에서Dev

Shopify에서 특정 태그를 포함하여 모든 Blog.Articles를 필터링하는 방법은 무엇입니까?

분류에서Dev

정규식 : 하나의 특정 html 태그에서 이러한 모든 특정 단어 찾기 / 삭제

분류에서Dev

두 개의 태그 필드, 즉 동일한 모델에 두 개의 태그 지정 가능 관리자를 갖는 방법은 무엇입니까?

분류에서Dev

정규식 : <!-주석-> 태그 / 필드 사이의 단어 검색 및 바꾸기

분류에서Dev

문자열 내 구두점을 무시하는 ArrayList <String> 및 필터링에 사용되는 정규식 일치

분류에서Dev

대소 문자를 구분하지 않는 모드에서 명명 된 캡처 링 그룹의 "in"단어에서 정규 표현식이 잘립니다.

분류에서Dev

정규식 : 특정 태그로 시작하고 다른 태그로 끝나는 모든 줄 찾기

분류에서Dev

정규식 찾기 및 <div class = "customclass"> 및 </ div> 태그 사이에서 바꾸기

Related 관련 기사

  1. 1

    정규식 : 태그를 제외한 행에서 모두 선택

  2. 2

    정규식을 사용하여 Windows 이벤트 로그에서 두 번째 계정 이름 만 필터링

  3. 3

    rubocop에서 "모호한 정규 표현식 리터럴"은 무엇입니까?

  4. 4

    정규식 : <> 태그에서 모든 연산자 (쉼표) 삭제

  5. 5

    두 특정 태그 사이의 모든 문자 제거 (Java 정규식)

  6. 6

    필터가있는 태그 사이의 정규식

  7. 7

    정규식-<td> 태그 사이의 모든 항목 찾기

  8. 8

    정규식을 사용한 로그 파일 모니터링

  9. 9

    정규 표현식으로 XML 상위 태그 가져 오기

  10. 10

    정규식을 사용하여 두 개의 HTML 태그에서 찾기 / 바꾸기

  11. 11

    Qt에서 정규식을 사용하여 두 태그 사이의 문자열 찾기

  12. 12

    정규 표현식을 통해 파이썬에서 특정 문자 (모든 발생)로 끝나는 텍스트 필터링

  13. 13

    PHP의 자식 태그에서 XML을 필터링하고 부모 태그를 반환합니다.

  14. 14

    정규식은이 또는 그 전에 모두 선택

  15. 15

    Django-taggit-태그가 지정된 모든 개체를 필터링하고 각 태그에 대해 반복하는 방법은 무엇입니까?

  16. 16

    정규식과 두 번째 파일을 사용하여 .txt 파일 필터링

  17. 17

    정규 표현식 "어떤 순서로든 세 가지 모두"

  18. 18

    정규 표현식 "어떤 순서로든 세 가지 모두"

  19. 19

    Powershell은 두 태그 사이의 정규식을 대체합니다.

  20. 20

    정규식 표현식을 사용하는 Flask SQLAlchemy 필터

  21. 21

    태그 간 내부 데이터 가져 오기 (정규식)

  22. 22

    Shopify에서 특정 태그를 포함하여 모든 Blog.Articles를 필터링하는 방법은 무엇입니까?

  23. 23

    정규식 : 하나의 특정 html 태그에서 이러한 모든 특정 단어 찾기 / 삭제

  24. 24

    두 개의 태그 필드, 즉 동일한 모델에 두 개의 태그 지정 가능 관리자를 갖는 방법은 무엇입니까?

  25. 25

    정규식 : <!-주석-> 태그 / 필드 사이의 단어 검색 및 바꾸기

  26. 26

    문자열 내 구두점을 무시하는 ArrayList <String> 및 필터링에 사용되는 정규식 일치

  27. 27

    대소 문자를 구분하지 않는 모드에서 명명 된 캡처 링 그룹의 "in"단어에서 정규 표현식이 잘립니다.

  28. 28

    정규식 : 특정 태그로 시작하고 다른 태그로 끝나는 모든 줄 찾기

  29. 29

    정규식 찾기 및 <div class = "customclass"> 및 </ div> 태그 사이에서 바꾸기

뜨겁다태그

보관