Rでhtmlテーブルとそのhrefリンクをスクレイピングする

アレックスドメトリウス

テキストとリンクを含むテーブルをダウンロードしようとしています。リンクテキスト「Pass」のテーブルを正常にダウンロードできます。ただし、テキストの代わりに、実際のhrefURLをキャプチャしたいと思います。

library(dplyr)
library(rvest)
library(XML)
library(httr)
library(stringr)

link <- "http://www.qimedical.com/resources/method-suitability/"

qi_webpage <- read_html(link)

qi_table <- html_nodes(qi_webpage, 'table')
qi <- html_table(qi_table, header = TRUE)[[1]]
qi <- qi[,-1]

上記は素晴らしいデータフレームを提供します。ただし、最後の列には、リンクを関連付けたい場合にのみ「合格」というテキストが含まれています。以下を使用してリンクを追加しようとしましたが、正しい行に対応していません。

qi_get <- GET("http://www.qimedical.com/resources/method-suitability/")
qi_html <- htmlParse(content(qi_get, as="text"))

qi.urls <- xpathSApply(qi_html, "//*/td[7]/a", xmlAttrs, "href")
qi.urls <- qi.urls[1,]

qi <- mutate(qi, "MSTLink" = (ifelse(qi$`Study Protocol(click to download certification)` == "Pass", (t(qi.urls)), "")))

私はhtmlやcssなどについてほとんど知らないので、これを適切に達成するために何が欠けているのかわかりません。

ありがとう!

neilfws

aテーブルセル内の要素を探していますtd次に、href 属性の値が必要ですしたがって、PDFダウンロードのすべてのURLを含むベクターを返す1つの方法があります。

qi_webpage %>%
  html_nodes(xpath = "//td/a") %>% 
  html_attr("href")

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

RubyとNokogiriでHTMLテーブルをスクレイピングする

分類Dev

Rでテーブルをスクレイピングするウェブ

分類Dev

httpsサイトでテーブルをスクレイピングするR

分類Dev

Rのリンクからテーブルをスクレイピングする

分類Dev

PythonlxmlでHTMLテーブルをスクレイピングする

分類Dev

スクレイピングでテーブルをこする

分類Dev

Pythonでテーブルをスクレイピングする

分類Dev

Rで動的テーブルをスクレイピングする

分類Dev

RでJavaScriptテーブルをスクレイピングする方法は?

分類Dev

HTMLテーブルスクレイピング–列からhref属性を取得する

分類Dev

HTMLテーブルスクレイピング–列からhref属性を取得する

分類Dev

Scrapy:条件付きでテーブル内のリンクをスクレイピングする方法

分類Dev

RでのWebスクレイピング:HTMLテーブルの解析に関する問題

分類Dev

Rでhtml_tableを使用してテーブルをスクレイピングする

分類Dev

R:リンク付きのネストされたhtmlテーブルをスクレイピングします(セル内のテーブル)

分類Dev

Rで埋め込まれたhtmlテーブルをスクレイピングする

分類Dev

複雑なHTMLテーブルをRのdata.frameにスクレイピングする

分類Dev

Pythonでのhtmlテーブルスクレイピング

分類Dev

CheerioでHTMLテーブルをWebスクレイピング

分類Dev

gocollyでスクレイピングするときに、htmlテーブルセルの改行を保持するにはどうすればよいですか

分類Dev

BeautifulSoup と Python で複数のテーブル ページをスクレイピングする

分類Dev

HTMLテーブルをRデータフレームにスクレイピングする

分類Dev

Rで複数のテーブルをスクレイピングする方法は?

分類Dev

Pythonを使用してhtmlテーブルをスクレイピングする

分類Dev

rvestを使用してスパンでhtmlテーブルをスクレイピングする

分類Dev

画像、テキスト、空白セルを含むWikipediaHTMLテーブルをRでスクレイピングする

分類Dev

奇数形式と<h> </ h>タグを使用してhtmlテーブルをスクレイピングする

分類Dev

VBA: HTML テーブルから情報をスクレイピングする

分類Dev

テーブルをリストにWebスクレイピングする

Related 関連記事

  1. 1

    RubyとNokogiriでHTMLテーブルをスクレイピングする

  2. 2

    Rでテーブルをスクレイピングするウェブ

  3. 3

    httpsサイトでテーブルをスクレイピングするR

  4. 4

    Rのリンクからテーブルをスクレイピングする

  5. 5

    PythonlxmlでHTMLテーブルをスクレイピングする

  6. 6

    スクレイピングでテーブルをこする

  7. 7

    Pythonでテーブルをスクレイピングする

  8. 8

    Rで動的テーブルをスクレイピングする

  9. 9

    RでJavaScriptテーブルをスクレイピングする方法は?

  10. 10

    HTMLテーブルスクレイピング–列からhref属性を取得する

  11. 11

    HTMLテーブルスクレイピング–列からhref属性を取得する

  12. 12

    Scrapy:条件付きでテーブル内のリンクをスクレイピングする方法

  13. 13

    RでのWebスクレイピング:HTMLテーブルの解析に関する問題

  14. 14

    Rでhtml_tableを使用してテーブルをスクレイピングする

  15. 15

    R:リンク付きのネストされたhtmlテーブルをスクレイピングします(セル内のテーブル)

  16. 16

    Rで埋め込まれたhtmlテーブルをスクレイピングする

  17. 17

    複雑なHTMLテーブルをRのdata.frameにスクレイピングする

  18. 18

    Pythonでのhtmlテーブルスクレイピング

  19. 19

    CheerioでHTMLテーブルをWebスクレイピング

  20. 20

    gocollyでスクレイピングするときに、htmlテーブルセルの改行を保持するにはどうすればよいですか

  21. 21

    BeautifulSoup と Python で複数のテーブル ページをスクレイピングする

  22. 22

    HTMLテーブルをRデータフレームにスクレイピングする

  23. 23

    Rで複数のテーブルをスクレイピングする方法は?

  24. 24

    Pythonを使用してhtmlテーブルをスクレイピングする

  25. 25

    rvestを使用してスパンでhtmlテーブルをスクレイピングする

  26. 26

    画像、テキスト、空白セルを含むWikipediaHTMLテーブルをRでスクレイピングする

  27. 27

    奇数形式と<h> </ h>タグを使用してhtmlテーブルをスクレイピングする

  28. 28

    VBA: HTML テーブルから情報をスクレイピングする

  29. 29

    テーブルをリストにWebスクレイピングする

ホットタグ

アーカイブ