使用XML包在R中进行Web抓取的麻烦

debugcn 发表于 Dev

弗兰克·B

我已经成功地使用XML包抓取了多个网站，但是在此特定页面上创建数据框时遇到了麻烦：

library(XML)

url <- paste("http://www.foxsports.com/nfl/injuries?season=2013&seasonType=1&week=1", sep = "")
df1 <- readHTMLTable(url)

print(df1)

> print(df1)
$`NULL`
NULL

$`NULL`
NULL

$`NULL`
             Player Pos         Injury           Game Status
1       Dickson, Ed  TE          thigh              Probable
2      Jensen, Ryan   C           foot              Doubtful
3     Jones, Arthur  DE        illness                   Out
4   McPhee, Pernell  LB           knee              Probable
5     Pitta, Dennis  TE dislocated hip Injured Reserve (DFR)
6  Thompson, Deonte  WR           foot              Doubtful
7 Williams, Brandon  DT            toe              Doubtful

$`NULL`
           Player Pos        Injury Game Status
1  Anderson, C.J.  RB          knee         Out
2   Ayers, Robert  DE      Achilles    Probable
3   Bailey, Champ  CB          foot         Out
4     Clady, Ryan   T      shoulder    Probable
5  Dreessen, Joel  TE          knee         Out
6    Kuper, Chris   G         ankle    Doubtful
7 Osweiler, Brock  QB left shoulder    Probable
8     Welker, Wes  WR         ankle    Probable

$`NULL`

etc

如果我尝试强制执行此操作，则会收到此错误：

> df1 <- data.frame(readHTMLTable(url))
Error in data.frame(`NULL` = NULL, `NULL` = NULL, `NULL` = list(Player = 1:7,  : 
  arguments imply differing number of rows: 0, 7, 8, 6, 9, 1, 11, 4, 12, 5, 21, 3, 2, 15

我想要所有球队的所有受伤数据（球员，POS，伤害，比赛状态）。

提前致谢。

克里斯·S。

您只需要删除NULL元素和具有1列列出“没有受伤报告”的表，然后使用do.call rbind

n<-sapply(df1, function(x) !is.null(x) && ncol(x)==4)
x <-  do.call("rbind", df1[n])
rownames(x)<-NULL

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-8

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用R在imdb中进行Web抓取

来自分类Dev

使用R在imdb中进行Web抓取

来自分类Dev

使用xpathSApply在R中进行Web抓取

来自分类Dev

使用预测包在R中进行预测

来自分类Dev

使用“并行”包在R中进行并行处理

来自分类Dev

使用R和XML包进行Web抓取

来自分类Dev

使用R和RVest进行Web抓取

来自分类Dev

使用Bursts软件包在R中进行突发检测（Kleinberg）

来自分类Dev

使用textcat软件包在R中进行语言检测：如何限制为几种语言？

来自分类Dev

使用 tidyverse 包在 R 中进行情绪分析 - 找不到对象“情绪”

来自分类Dev

关于使用 R 中的 Caret 包在 LASSO 中进行预处理

来自分类Dev

在python中使用Selenium进行Web抓取，单击按钮时遇到麻烦

来自分类Dev

在R中进行网页抓取（带循环）

来自分类Dev

用RVest在R中进行Web抓取：如果缺少div，则返回NA

来自分类Dev

使用Web爬网数据在R中进行映射

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用R进行网页抓取

来自分类Dev

自动扩展网页的折叠部分以在R中进行网页抓取

来自分类Dev

使用绝对网址和相对网址在JavaScript中进行抓取

来自分类Dev

使用R Web抓取数据

来自分类Dev

忽略使用Entrust软件包在Laravel 5中进行访问检查的路由

来自分类Dev

种子选项：使用不同的软件包在Python中进行机器学习

来自分类Dev

在Wikipedia上使用BeautifulSoup进行Web抓取

来自分类Dev

使用Python，BeautifulSoup进行Web抓取

来自分类Dev

使用BeautifulSoup到Dataframe进行Web抓取

来自分类Dev

Python-使用Scrapy进行Web抓取

来自分类Dev

使用Node.js进行Web抓取

来自分类Dev

使用Web :: Scraper从.onion网站进行抓取

来自分类Dev

使用ThreadPoolExecutor进行错误的Web抓取

Related 相关文章

文章