テキストとリンクを含むテーブルをダウンロードしようとしています。リンクテキスト「Pass」のテーブルを正常にダウンロードできます。ただし、テキストの代わりに、実際のhrefURLをキャプチャしたいと思います。
library(dplyr)
library(rvest)
library(XML)
library(httr)
library(stringr)
link <- "http://www.qimedical.com/resources/method-suitability/"
qi_webpage <- read_html(link)
qi_table <- html_nodes(qi_webpage, 'table')
qi <- html_table(qi_table, header = TRUE)[[1]]
qi <- qi[,-1]
上記は素晴らしいデータフレームを提供します。ただし、最後の列には、リンクを関連付けたい場合にのみ「合格」というテキストが含まれています。以下を使用してリンクを追加しようとしましたが、正しい行に対応していません。
qi_get <- GET("http://www.qimedical.com/resources/method-suitability/")
qi_html <- htmlParse(content(qi_get, as="text"))
qi.urls <- xpathSApply(qi_html, "//*/td[7]/a", xmlAttrs, "href")
qi.urls <- qi.urls[1,]
qi <- mutate(qi, "MSTLink" = (ifelse(qi$`Study Protocol(click to download certification)` == "Pass", (t(qi.urls)), "")))
私はhtmlやcssなどについてほとんど知らないので、これを適切に達成するために何が欠けているのかわかりません。
ありがとう!
a
テーブルセル内の要素を探していますtd
。次に、href
属性の値が必要です。したがって、PDFダウンロードのすべてのURLを含むベクターを返す1つの方法があります。
qi_webpage %>%
html_nodes(xpath = "//td/a") %>%
html_attr("href")
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加