RSelenium：抓取加载缓慢的动态加载页面

debugcn 发表于 Dev

蜂友

我不确定这是不是因为我的互联网速度很慢，但我正在尝试抓取一个在您向下滚动页面时加载信息的网站。我正在执行一个到达页面末尾的脚本，并等待 Selenium/Chrome 服务器加载附加内容。服务器确实会更新并加载新内容，因为我能够抓取最初不在页面上的信息，并且新内容会显示在 chrome 查看器上，但它只更新一次。我设置了一个Sys.sleep()函数，每次等待一分钟，这样内容就有足够的时间来加载，但它仍然不会更新多次。我是否错误地使用了 RSelenium？还有其他方法可以抓取动态加载的站点吗？

无论如何，您可以提供的任何建议或帮助都很棒。

以下是我认为与在页面末尾加载新内容相关的代码部分：

for(i in 1:3){
  webElem <- remDr$findElement('css', 'body')
  remDr$executeScript('window.scrollTo(0, document.body.scrollHeight);') 
  Sys.sleep(60)
}

下面是完整的代码：

library(RSelenium)
library(rvest)
library(stringr)

rsDriver(port = 4444L, browser = 'chrome')
remDr <- remoteDriver(browser = 'chrome')
remDr$open()
remDr$navigate('http://www.codewars.com/kata')

#find the total number of recorded katas
tot_kata <- remDr$findElement(using = 'css', '.is-gray-text')$getElementText() %>%
  unlist() %>%
  str_extract('\\d+') %>%
  as.numeric()

#there are about 30 katas per page reload
tot_pages <- (tot_kata/30) %>%
  ceiling()

#will be 1:tot_pages once I know the below code works
for(i in 1:3){
  webElem <- remDr$findElement('css', 'body')
  remDr$executeScript('window.scrollTo(0, document.body.scrollHeight);') 
  Sys.sleep(60)
}

page_source <- remDr$getPageSource()

kata_vector <- read_html(page_source[[1]]) %>%
  html_nodes('.item-title a') %>%
  html_attr('href') %>%
  str_replace('/kata/', '')

remDr$close

杰哈里森

该网站提供了一个api，它应该是第一个停靠港。如果失败，您可以使用例如以下方式访问单个页面：

http://www.codewars.com/kata?page=21

如果您想滚动到页面底部直到没有更多内容，RSelenium您可以使用“正在加载...”元素，它有一个class=js-infinite-marker. 虽然我们在页面上仍然有这个元素，但我们尝试每秒向下滚动到它（针对任何问题捕获一些错误）。如果元素不存在，我们假设所有内容都已加载：

library(RSelenium)

rD <- rsDriver(port = 4444L, browser = 'chrome')
remDr <- rD$client # You dont need to use the open method 
remDr$navigate('http://www.codewars.com/kata')
chk <- FALSE
while(!chk){
  webElem <- remDr$findElements("css", ".js-infinite-marker")
  if(length(webElem) > 0L){
    tryCatch(
      remDr$executeScript("elem = arguments[0]; 
                      elem.scrollIntoView(); 
                        return true;", list(webElem[[1]])), 
      error = function(e){}
    )
    Sys.sleep(1L)
  }else{
    chk <- TRUE
  }
}

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-8

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

RSelenium：抓取加载缓慢的动态加载页面

RSelenium：抓取加载缓慢的动态加载页面

动态加载页面的python web抓取

使用beautifulsoup抓取动态加载页面

页面加载缓慢

动态加载反应页面

动态加载 SwipeView 页面

在页面加载之前缓慢显示图像

流星页面重新加载极其缓慢？

Firefox 63页面加载缓慢？

使用 Flask 时 apache 页面加载缓慢

动态加载图像缓慢，jQuery，PHP

jQuery-缓慢加载页面并加载gif效果

如何动态加载外部页面

使用 php curl 抓取动态加载的网站

如何检查页面是否在RSelenium中完成加载

IE7加载光标闪烁，使页面响应缓慢

IE7加载光标闪烁，使页面响应缓慢

BB到HTML转换器缓慢加载页面

MVC页面加载非常缓慢。我该如何查明问题？

WSDL缓慢加载SUDS

DbContext加载缓慢

Pygame加载缓慢

某些网页加载缓慢

Heroku图像加载缓慢

Pygame加载缓慢

某些网页加载缓慢

Unity游戏加载缓慢

DbContext加载缓慢

UITableView加载缓慢

访问动态加载的html页面的元素