从表中提取数据的美丽汤

GNMO11

我正在尝试从Four Factors本网站https://www.basketball-reference.com/boxscores/201101100CHA.html表格中提取数据我很难到达餐桌。我试过了

url = https://www.basketball-reference.com/boxscores/201101100CHA.html
html = requests.get(url).content
soup = BeautifulSoup(html,"html.parser")

div = soup.find('div',id='all_four_factors')

然后,当我尝试使用tr = div.find_all('tr')拉行时,我一无所获。

比尔·M。

我查看了您尝试抓取的 HTML 代码,问题是您尝试获取的标签都在评论部分中,<!-- Like this --->. BeautifulSoup 将其中的注释视为一堆文本,而不是实际的 HTML 代码。所以你需要做的是获取评论的内容,然后将此字符串重新粘贴到 BeautifulSoup 中:

import requests
from bs4 import BeautifulSoup, Comment

url = 'https://www.basketball-reference.com/boxscores/201101100CHA.html'
html = requests.get(url).content
soup = BeautifulSoup(html,"html.parser")

div = soup.find('div', id='all_four_factors')

# Get everything in here that's a comment
comments = div.find_all(text=lambda text:isinstance(text, Comment))

# Loop through each comment until you find the one that
# has the stuff you want.
for c in comments:

    # A perhaps crude but effective way of stopping at a comment
    # with HTML inside: see if the first character inside is '<'.
    if c.strip()[0] == '<':
        newsoup = BeautifulSoup(c.strip(), 'html.parser')
        tr = newsoup.find_all('tr')
        print(tr)

对此的一个警告是 BS 将假设注释掉的代码是有效的、格式良好的 HTML。不过这对我有用,所以如果页面保持相对相同,它应该继续工作。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从美丽的汤python中提取链接标题

来自分类Dev

如何从美丽的汤类中提取价值

来自分类Dev

从美丽汤中的图表中提取文本

来自分类Dev

美丽的汤:从深度嵌套的<div>中提取

来自分类Dev

用美丽的汤从字典中提取

来自分类Dev

如何从美丽的汤类中提取价值

来自分类Dev

如何使用美丽汤从Wikipedia中提取表格

来自分类Dev

尝试使用美丽的汤从 html 页面中提取价值

来自分类Dev

使用美丽汤提取

来自分类Dev

使用美丽汤提取

来自分类Dev

用美丽的汤提取表中的所有链接

来自分类Dev

美丽的汤提取父母/兄弟姐妹tr表类

来自分类Dev

Python,美丽的汤,如何提取数据并打印到csv文件

来自分类Dev

美丽的汤只需提取表头

来自分类Dev

从美丽的汤表到MYSQL的Python数据插入

来自分类Dev

美丽的汤找不到表

来自分类Dev

美丽的汤分页,find_all在next_page类中找不到文本。还需要从URL中提取数据

来自分类Dev

如何用美丽的汤汁从此页面中提取曲目标题

来自分类Dev

提取物价格-美丽的汤

来自分类Dev

提取美丽汤中的属性值

来自分类Dev

用美丽的汤提取很少的值

来自分类Dev

用美丽的汤提取特定的链接

来自分类Dev

我需要从汤项目中提取数据

来自分类Dev

如何从我得到的汤结果中提取或分解数据?

来自分类Dev

美丽汤4在表中查找文本

来自分类Dev

无法用美丽的汤解析html表

来自分类Dev

美丽的汤:从html获取文本数据

来自分类Dev

美丽的汤找不到基本的HTML数据

来自分类Dev

美丽的汤使XML数据不完整