Python BS4抓取表在<td>标签中具有多个值

以利

我正在尝试在标签中具有多个类的表上使用BS4。下面的示例HTML。

   </tr><tr id="_North_Carolina" class="seedrow">
<td title="Click to show/hide ranks" class='lowrowclick' style="text-align:center;font-size:8px">5</td>
<td  id='North_Carolina' class="teamname"><a href="team.php?team=North+Carolina&year=2019" style="text-decoration: none;">North Carolina<span class="lowrow" style="font-size:10px"><br/>&nbsp;&nbsp;&nbsp;1 seed, <span style='background-color:#BAE2C6'>Sweet Sixteen</span></span></a></td>
<td class="mobileout" style="text-align:center"><a href="conf.php?conf=ACC&year=2019">ACC</a></td>
<td class="6  mobileout" style="text-align:center">33</td>
<td class="5  " style="text-align:center;border-right:solid 1px black"><a title = "<b>Wins:</b> @ Wofford, @ Elon, Stanford, Tennessee Tech, St. Francis PA, v. UCLA, UNC Wilmington, Gonzaga, Davidson, Harvard, @ Pittsburgh, @ North Carolina St., Notre Dame, @ Miami FL, Virginia Tech, @ Georgia Tech, @ Louisville, North Carolina St., Miami FL, @ Wake Forest, @ Duke, Florida St., Syracuse, @ Clemson, @ Boston College, Duke, v. Louisville, <br/><b>Losses</b>: v. Texas, @ Michigan, v. Kentucky, Louisville, Virginia, v. Duke, " href='results.php?team=North+Carolina&begin=20181101&end=20190501&conlimit=All&lastx=0&year=2019&top=0&venue=All&type=R&mingames=0&quad=5&rpi=&f=1'">27–6</a><br/><span class="lowrow" style="font-size:8px;">16–2</span></td>
<td class="1  " style="background-color:#AADBB9">119.2<br/><span class="lowrow" style="font-size:8px;">8</span></td>
<td class="2  " style="background-color:#ACDCBA">91.2<br/><span class="lowrow" style="font-size:8px;">10</span></td>
<td  class="3  " style="background-color:#A8DAB6; border-right:solid 1px black" >.9559<br/><span class="lowrow" style="font-size:8px;">5</span></td>
<td style="background-color:#E8F4ED" class="7  mobileout" >52.9<br/><span class="lowrow" style="font-size:8px;">78</span></td>
<td style="background-color:#DAEEE1;border-right:solid 1px black" class="8  mobileout" style="border-right:solid 1px black">48.3<br/><span class="lowrow" style="font-size:8px;">62</span></td>
<td style="background-color:#E4F3EA" class="11 mobileout" >17.1<br/><span class="lowrow" style="font-size:8px;">74</span></td>
<td style="background-color:#f9fbff;border-right:solid 1px black" class="12 mobileout" style="border-right:solid 1px black">18.5<br/><span class="lowrow" style="font-size:8px;">166</span></td>
<td style="background-color:#B6E0C2" class="13 mobileout" >34.6<br/><span class="lowrow" style="font-size:8px;">21</span></td>
<td style="background-color:#AEDDBC;border-right:solid 1px black" class="14 mobileout" style="border-right:solid 1px black">23.2<br/><span class="lowrow"  style="font-size:8px;">12</span></td>
<td style="background-color:#f9fbff" class="9  mobileout" >30.9<br/><span class="lowrow" style="font-size:8px;">241</span></td>
<td style="background-color:#E2F2E9;border-right:solid 1px black" class="10 mobileout" style="border-right:solid 1px black">28.9<br/><span class="lowrow" style="font-size:8px;">72</span></td>
<td style="background-color:#F6FAFA" class="16 mobileout" >51.9<br/><span class="lowrow" style="font-size:8px;">95</span></td>
<td style="background-color:#DDF0E4;border-right:solid 1px black" class="17 mobileout" style="border-right:solid 1px black">47.5<br/><span class="lowrow" style="font-size:8px;">66</span></td>
<td style="background-color:#E0F1E7" class="18 mobileout" >36.5<br/><span class="lowrow" style="font-size:8px;">69</span></td>
<td style="background-color:#EBF5F0;border-right:solid 1px black" class="19 mobileout" style="border-right:solid 1px black">32.9<br/><span class="lowrow" style="font-size:8px;">82</span></td>
<td style="background-color:#A7DAB6;;border-right:solid 1px black"" class="26 mobileout" >76.3<br/><span class="lowrow" style="font-size:8px;">4</span></td>
<td style="background-color:#A9DBB8" class="34 " >10<br/><span class="lowrow" style="font-size:8px;">4</span></td>

我的目标是从团队记录(td类5)开始,然后将其返回为:

North_Carolina, 30-3, 16-0

我当前的代码

data = soup.findAll('tr', class_ = 'seedrow')

    for item in data:
      records = item.find('td', class_ = '5')
      for first in records:
        reg_record = first.find('a')
        print(reg_record)

仅返回“无”列表。任何帮助将不胜感激。

克尔·拉玛·奎师那

您在锚标记中发布的html出现问题,因为href尚未关闭单引号。

就是这样<a title = "Wins" href='results.php? >我已将其修改为<a title = "Wins" href='results.php?'>

这是我测试过的代码

from bs4 import BeautifulSoup
strrr = """<tr id="_North_Carolina" class="seedrow"><td class="5" style="text-align:center;border-right:solid 1px black"><a title = "Wins" href='results.php?'>30–3</a> <br/><span class="lowrow" style="font-size:8px;">16–0</span></td></tr>
"""
soup = BeautifulSoup(strrr, 'html.parser')
data = soup.findAll('tr', attrs={"class": "seedrow"})

for item in data:
    records = item.findAll('td', attrs={"class": "5"})
    for first in records:
        reg_record = first.find('a').contents[0]
        print(reg_record)

输出为30-3

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Python Bs4:如何根据该行的特定“td”值检索表中的行

来自分类Dev

Python bs4 Web只抓取返回空值

来自分类Dev

Python - 使用 bs4 抓取 Javascript 并打印出值

来自分类Dev

Python // BS4 //标签

来自分类Dev

在 Python 中,如何使用多个 <td> 抓取表?

来自分类Dev

如何使用 BS4 迭代 <td> 标签?

来自分类Dev

如何在脚本中获取“ hiRes”字段?Python抓取Bs4

来自分类Dev

Python> bs4抓取网站(基于下拉列表中的选择)

来自分类Dev

Python和BS4 | 获取具有特定文本内容的所有表数据

来自分类Dev

使用 python3 和 bs4 抓取 html 表不起作用

来自分类Dev

在抓取 html 表时动态跳过最后两行:BS4 Python

来自分类Dev

如何使用python bs4获取Wikipedia表中的第一列值?

来自分类Dev

Python bs4删除br标签

来自分类Dev

Python bs4删除br标签

来自分类Dev

带有SDMX的Python BS4

来自分类Dev

修剪python bs4中的空白

来自分类Dev

修剪python bs4中的空白

来自分类Dev

如果td使用JavaScript / JQuery具有NIL值,如何在表中隐藏tr标签?

来自分类Dev

在python中修复用BS4提取的损坏的html表

来自分类Dev

使用bs4在同一页面的多个表中抓取特定的html表

来自分类Dev

亚马逊使用bs4阻止了Python 3抓取

来自分类Dev

使用 python 和 bs4 进行网页抓取

来自分类Dev

在python(使用bs4)中跨多个非统一表返回数据迭代一次吗?

来自分类Dev

如何使用循环从表中抓取数据以使用python获取所有td数据

来自分类Dev

选择BS4 Python上的特定标签

来自分类Dev

Python / bs4:div标签内的跨度-文本提取

来自分类Dev

使用BS4和Python提取异常的XML标签

来自分类Dev

Python Beautiful Soup Table数据抓取特定TD标签

来自分类Dev

如何使用 Python 3 抓取每个 td 标签内容

Related 相关文章

  1. 1

    Python Bs4:如何根据该行的特定“td”值检索表中的行

  2. 2

    Python bs4 Web只抓取返回空值

  3. 3

    Python - 使用 bs4 抓取 Javascript 并打印出值

  4. 4

    Python // BS4 //标签

  5. 5

    在 Python 中,如何使用多个 <td> 抓取表?

  6. 6

    如何使用 BS4 迭代 <td> 标签?

  7. 7

    如何在脚本中获取“ hiRes”字段?Python抓取Bs4

  8. 8

    Python> bs4抓取网站(基于下拉列表中的选择)

  9. 9

    Python和BS4 | 获取具有特定文本内容的所有表数据

  10. 10

    使用 python3 和 bs4 抓取 html 表不起作用

  11. 11

    在抓取 html 表时动态跳过最后两行:BS4 Python

  12. 12

    如何使用python bs4获取Wikipedia表中的第一列值?

  13. 13

    Python bs4删除br标签

  14. 14

    Python bs4删除br标签

  15. 15

    带有SDMX的Python BS4

  16. 16

    修剪python bs4中的空白

  17. 17

    修剪python bs4中的空白

  18. 18

    如果td使用JavaScript / JQuery具有NIL值,如何在表中隐藏tr标签?

  19. 19

    在python中修复用BS4提取的损坏的html表

  20. 20

    使用bs4在同一页面的多个表中抓取特定的html表

  21. 21

    亚马逊使用bs4阻止了Python 3抓取

  22. 22

    使用 python 和 bs4 进行网页抓取

  23. 23

    在python(使用bs4)中跨多个非统一表返回数据迭代一次吗?

  24. 24

    如何使用循环从表中抓取数据以使用python获取所有td数据

  25. 25

    选择BS4 Python上的特定标签

  26. 26

    Python / bs4:div标签内的跨度-文本提取

  27. 27

    使用BS4和Python提取异常的XML标签

  28. 28

    Python Beautiful Soup Table数据抓取特定TD标签

  29. 29

    如何使用 Python 3 抓取每个 td 标签内容

热门标签

归档