RでgetURLContent()またはHTMLParse()を使用して、Webサイトからhtmlを取得しようとしています。問題は、ページの読み込みが遅く、いくつかのチャンクになっていることです。
これらのオプションは両方とも、Webページの最初のチャンクがロードされた後に停止してコードを返すようです。これにより、HTMLには、さらに5〜10秒で読み込まれるものの大部分が失われます。
解析を開始する方法が必要ですが、ページの読み込み時間を確保するために、実行中に解析を遅らせる必要があります。私はこれらの2つのオプションに関する文献を調査しましたが、それを行うためのオプションは見つかりませんでした。
誰かがこの問題の可能性または回避策の可能性を知っていますか?
ありがとうございました!
通常、この問題はAjaxを使用するページから発生します(ページを複数回ロードします)。これ以上の情報がないとわかりにくい。
通常機能する1つの解決策は、Firefox / Explorer / Chromeページを開くことにより、「実際の」ユーザーを模倣するRSeleniumを使用することです。
# selenium proper
library(RSelenium)
# rvest to convert to xml for easier parsing
library(rvest)
# start a server and open a navigator (firefox by default)
startServer()
driver <- remoteDriver()
driver$open()
# go to google
driver$navigate("http://www.google.com")
# get source code
page <- driver$getPageSource()
# convert to xml for easier parsing
page_xml <- read_html(page[[1]])
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加