使用XML包在R中进行Web抓取的麻烦

弗兰克·B

我已经成功地使用XML包抓取了多个网站,但是在此特定页面上创建数据框时遇到了麻烦:

library(XML)

url <- paste("http://www.foxsports.com/nfl/injuries?season=2013&seasonType=1&week=1", sep = "")
df1 <- readHTMLTable(url)

print(df1)

> print(df1)
$`NULL`
NULL

$`NULL`
NULL

$`NULL`
             Player Pos         Injury           Game Status
1       Dickson, Ed  TE          thigh              Probable
2      Jensen, Ryan   C           foot              Doubtful
3     Jones, Arthur  DE        illness                   Out
4   McPhee, Pernell  LB           knee              Probable
5     Pitta, Dennis  TE dislocated hip Injured Reserve (DFR)
6  Thompson, Deonte  WR           foot              Doubtful
7 Williams, Brandon  DT            toe              Doubtful

$`NULL`
           Player Pos        Injury Game Status
1  Anderson, C.J.  RB          knee         Out
2   Ayers, Robert  DE      Achilles    Probable
3   Bailey, Champ  CB          foot         Out
4     Clady, Ryan   T      shoulder    Probable
5  Dreessen, Joel  TE          knee         Out
6    Kuper, Chris   G         ankle    Doubtful
7 Osweiler, Brock  QB left shoulder    Probable
8     Welker, Wes  WR         ankle    Probable

$`NULL`

etc

如果我尝试强制执行此操作,则会收到此错误:

> df1 <- data.frame(readHTMLTable(url))
Error in data.frame(`NULL` = NULL, `NULL` = NULL, `NULL` = list(Player = 1:7,  : 
  arguments imply differing number of rows: 0, 7, 8, 6, 9, 1, 11, 4, 12, 5, 21, 3, 2, 15

我想要所有球队的所有受伤数据(球员,POS,伤害,比赛状态)。

提前致谢。

克里斯·S。

您只需要删除NULL元素和具有1列列出“没有受伤报告”的表,然后使用do.call rbind

n<-sapply(df1, function(x) !is.null(x) && ncol(x)==4)
x <-  do.call("rbind", df1[n])
rownames(x)<-NULL

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用R在imdb中进行Web抓取

来自分类Dev

使用R在imdb中进行Web抓取

来自分类Dev

使用xpathSApply在R中进行Web抓取

来自分类Dev

使用预测包在R中进行预测

来自分类Dev

使用“并行”包在R中进行并行处理

来自分类Dev

使用R和XML包进行Web抓取

来自分类Dev

使用R和RVest进行Web抓取

来自分类Dev

使用Bursts软件包在R中进行突发检测(Kleinberg)

来自分类Dev

使用textcat软件包在R中进行语言检测:如何限制为几种语言?

来自分类Dev

使用 tidyverse 包在 R 中进行情绪分析 - 找不到对象“情绪”

来自分类Dev

关于使用 R 中的 Caret 包在 LASSO 中进行预处理

来自分类Dev

在python中使用Selenium进行Web抓取,单击按钮时遇到麻烦

来自分类Dev

在R中进行网页抓取(带循环)

来自分类Dev

用RVest在R中进行Web抓取:如果缺少div,则返回NA

来自分类Dev

使用Web爬网数据在R中进行映射

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用R进行网页抓取

来自分类Dev

自动扩展网页的折叠部分以在R中进行网页抓取

来自分类Dev

使用绝对网址和相对网址在JavaScript中进行抓取

来自分类Dev

使用R Web抓取数据

来自分类Dev

忽略使用Entrust软件包在Laravel 5中进行访问检查的路由

来自分类Dev

种子选项:使用不同的软件包在Python中进行机器学习

来自分类Dev

在Wikipedia上使用BeautifulSoup进行Web抓取

来自分类Dev

使用Python,BeautifulSoup进行Web抓取

来自分类Dev

使用BeautifulSoup到Dataframe进行Web抓取

来自分类Dev

Python-使用Scrapy进行Web抓取

来自分类Dev

使用Node.js进行Web抓取

来自分类Dev

使用Web :: Scraper从.onion网站进行抓取

来自分类Dev

使用ThreadPoolExecutor进行错误的Web抓取

Related 相关文章

热门标签

归档