硒| 获取网页文本

伦特罗普

有没有办法从RSelenium中的remoteDriver获取纯文本?类似于:remDr$getPlainText()等同于remDr$getPageSource()

工作人员:

我设法将phantomJS的plainText保存到文件,如下所示:

  require(RSelenium)
  pJS <- phantom()
  Sys.sleep(5) # give the binary a moment
  remDr = remoteDriver(browserName = 'phantomjs')
  remDr$open()
  remDr$phantomExecute('var page = this;
                         var fs = require(\"fs\");
                       page.onLoadFinished = function(status) {
                       var txtFile = fs.open(\"url.txt\", \"w\");
                       txtFile.write(page.plainText);
                       txtFile.close();
                       };')

  remDr$navigate(some_url)

但是然后我必须用后记读取文件...

我的解决方法类似于https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-headless.html#id3b

巴拉斯

我不确定是否能解决问题。

library(RSelenium)
checkForServer()
startServer()
re<-remoteDriver()
re$open()
re$navigate("link")
txt<-re$findElement(using='css selector',"body")$getElementText()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章