BeautifulSoup:难以访问正确的表

anon_swe

我正在使用BeautifulSoup4抓取页面,并且以下功能给了我2个问题:

def getTeamRoster(teamURL):
    html = urllib.request.urlopen(teamURL).read()
    soup = BeautifulSoup(html)
    teamPlayers = []
    #second table
    corebody = soup.find(id = "corebody")
    teamTable = corebody.table.next_sibling.next_sibling.next_sibling.next_sibling
    print(teamTable)
    tableBody = teamTable.find('tbody')
    print(tableBody)
    tableRows = tableBody.findAll('tr')

1)当我仅调用4次“ .next_sibling”(如上所述)时,我似乎得到了正确的表。但是,我尝试访问的表标签是#corebody ID中的第6个表。当我调用“ .next_sibling” 5次时,我从BeautifulSoup得到-1,表明我请求的表不存在?我以为您通常会在这种情况下使None退回。知道为什么调用“ .next_sibling” 5次不能按预期工作吗?

网址为 http://modules.ussquash.com/ssm/pages/leagues/Team_Information.asp?id=11325

2)tableBody = teamTable.find('tbody')给我带来了一些麻烦。当我打印tableBody时,我没有任何提示,但是我不确定为什么会发生这种情况(我正在访问的表中肯定有一个标签)。

有想法吗?

感谢您的帮助,bclayman

马克西姆

我可以使用pandas.read_html以下方法获取玩家表

import requests
import pandas as pd

url = 'http://modules.ussquash.com/ssm/pages/leagues/Team_Information.asp?id=11325'
tables = pd.read_html(requests.get(url).content)
tables[4]
                            \n\t\t\t\tPlayers\n\t\t\t           City Gender  SinglesRating TeamPosition  Expiration Win/Loss    P Registered Code Ref. Exam
0                                         Browne,Noah        Taunton      M           5.56            1  02/29/2016   14 / 4    -   08/28/14    -       NaN
1                                      Ellis,Thornton            rye      M           4.27           10  02/29/2016    0 / 9    -   08/28/14    -      pass
2                                          Line,James    Glastonbury      M           4.25           10  02/29/2016    2 / 7    -   08/28/14    -       NaN
3                                   Desantis,Scott J.        Sudbury      M           5.08            2  02/29/2016   9 / 10    -   08/28/14    -      pass
4                                    Bahadori,Cameron    Great Falls      M           4.97            3  01/12/2016   3 / 10    -   11/05/14    -      pass
5                                       Groot,Michael       Victoria      M           4.76            4  02/29/2016   5 / 11    -   08/28/14    -       NaN
6                                       Ehsani,Darian      Greenwich      M           4.76            5  02/29/2016   6 / 13    -   08/28/14    -      pass
7                                          Kardon,Max         Weston      M           4.83            6  02/29/2016   5 / 14    -   08/28/14    -      pass
8                                          Van,Jeremy            NaN      M           4.66            7  02/29/2016   5 / 13    -   08/28/14    -       NaN
9                              Southmayd,Alexander T.         Boston      M           4.91            8  02/29/2016   13 / 6    -   08/28/14    -      pass
10                                 Cacouris,Stephen A         Alpine      M           4.68            9  02/29/2016   9 / 10    -   08/28/14    -      pass
11                                  Groot,Christopher       Edmonton      M           4.62            -  02/29/2016    0 / 2    -   08/28/14    -       NaN
12                                Mack,Peter D. (sub)     N. Eastham      M           3.94            -  02/29/2016    0 / 1    -   11/23/14    -       NaN
13                               Shrager,Nathaniel O.       Stanford      M           0.00            -  02/29/2016    0 / 0    -   08/28/14    -       NaN
14                                Woolverton,Peter C.  Chestnut Hill      M           4.06            -  02/29/2016    1 / 0    -   08/28/14    -       NaN
15  Total Players: 15 Average singles rating: 4.36...            NaN    NaN            NaN          NaN         NaN      NaN  NaN        NaN  NaN       NaN

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

难以操作Lua表

来自分类Dev

正确获取HTML表的可访问性

来自分类Dev

espn表beautifulsoup,找不到正确的标签,其中的图片

来自分类Dev

使用beautifulsoup提取难以识别的数据

来自分类Dev

难以确定要传递的正确参数

来自分类Dev

难以将Selenium指向正确的iFrame [python]

来自分类Dev

难以将Selenium指向正确的iFrame [python]

来自分类Dev

击键事件期间难以访问类方法

来自分类Dev

击键事件期间难以访问类方法

来自分类Dev

正确访问熊猫数据透视表中元素的方法

来自分类Dev

访问关系问题,数据未提取到正确的表中

来自分类Dev

Beautifulsoup解析正确的值

来自分类Dev

使用BeautifulSoup和Python在格式不正确的表中获取一列

来自分类Dev

在Linq中增加天数-难以显示正确的天数

来自分类Dev

用小数除法时难以获得正确答案

来自分类Dev

在Linq中增加天数-难以显示正确的天数

来自分类Dev

难以从Java控制台中正确读取输入

来自分类Dev

Django:难以理解如何访问模板中的字段值

来自分类Dev

C++ 难以从深层内部类访问方法

来自分类Dev

正确的方法将大型JSON对象归档在可以通过API访问的PostgreSQL表中?

来自分类Dev

语法错误或访问冲突:1103 $ _POST数组数据的表名称不正确

来自分类Dev

从表中获取搜索数据-难以捉摸

来自分类Dev

Android难以升级SQlite表而不会丢失旧数据

来自分类Dev

难以从多个表中找到最大值

来自分类Dev

在PHP查询中难以连接3个表

来自分类Dev

难以理解通过链表实现哈希表的实现

来自分类Dev

难以通过子查询从多个表中选择数据

来自分类常见问题

python BeautifulSoup解析表

来自分类Dev

Python BeautifulSoup抓取表

Related 相关文章

热门标签

归档