使用BeautifulSoup和Python在格式不正确的表中获取一列

Parseltongue

我正在遍历.csv合同,试图从网站中提取单个列。

这是网站的示例:https : //www.austintexas.gov/financeonline/contract_catalog/OCCViewMA.cfm?cd=CT&dd=6100&id=13060600641

我想从网页末尾的表格中获取标有“商品描述”的列。但是,我无法弄清楚如何获取列-只是行。

这是我目前正在使用的代码

def scraper(first, second, third):
    url = "https://www.austintexas.gov/financeonline/contract_catalog/OCCViewMA.cfm?cd=%s&dd=%d&id=%s" % (first, second, third)
    soup = BeautifulSoup(urllib2.urlopen(url).read())
    foundtext = soup.find('td',text="Commodity Description")
    table = foundtext.findPrevious('table')
    rows = table.findAll('tr')
    second_column = []
    for row in rows:
        print row.contents

我希望最终的输出返回是该列中所有行的文本,各行之间有回车。

有什么想法吗?

ec

对于找到的每一行,找到所有td元素并通过索引获得所需的元素:

table = soup.find('td', text="Commodity Description").find_parent("table")
for row in table.select("tr")[2:]:  # skipping the header rows
    cell = row.find_all("td")[1]
    print(cell.get_text())
    print("----")

印刷:

WATERLINE REPLACEMENTCONSTRUCTION, PIPELINEPER YUEJIAO LIU, ADD THE REMAINING FUNDS BACK INTO THIS FUNDING LINE  //   PEMBERTON HEIGHTS PHASE III PROJECT  ++   ENC.  $53,209.97
----
WATERLINE REPLACEMENTCONSTRUCTION, PIPELINEPEMBERTON HEIGHTS PHASE III PROJECT
----
WATERLINE REPLACEMENTCONSTRUCTION, PIPELINEPEMBERTON HEIGHTS PHASE III PROJECT
----

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在同一列中设置单选按钮和条目的位置,但结果不正确

来自分类Dev

在同一列中设置单选按钮和条目的位置,但结果不正确

来自分类Dev

pandas数据框中的第一列不正确?

来自分类Dev

如何使用熊猫从python中的数据集中查找和更正日期格式不正确的日期

来自分类Dev

使用excel从不正确的格式中获取日期值

来自分类Dev

使用BeautifulSoup从HTML表中刮取一列

来自分类Dev

错误外部表的格式不正确

来自分类Dev

Collapsingtoolbar和cardview格式不正确

来自分类Dev

熊猫数据框中的列获取不正确的值

来自分类Dev

Xml Python-格式不正确

来自分类Dev

angularjs中不正确的日期格式

来自分类Dev

AngularJS中的格式验证不正确

来自分类Dev

从Python中的代码获取不正确的输出

来自分类Dev

使用Angular的HTML表中的行总和不正确

来自分类Dev

使用 SQL Server 从每个表和每一列中获取不同的值

来自分类Dev

仅使用sed或perl修复格式不正确的CSV和不正确的换行符

来自分类Dev

jQuery的高度,Chrome中的每个高度和CSS一起使用均不正确

来自分类Dev

如何使用 Python 在 Spark 1.6 中解析格式不正确的 JSON 字符串,其中包含空格、额外的双引号和反斜杠?

来自分类Dev

表的列宽不正确

来自分类Dev

使用PDO从表的一列中获取值

来自分类Dev

如何使用python bs4获取Wikipedia表中的第一列值?

来自分类Dev

MySQL致命错误:无法打开和锁定特权表:不正确的文件格式“用户”

来自分类Dev

在同一列中分配过滤值的结果不正确

来自分类Dev

在同一列中分配过滤值的结果不正确

来自分类Dev

使用的样式表不正确

来自分类Dev

外键约束的格式不正确[同一表]

来自分类Dev

Excel宏将格式不正确的数据复制到表中

来自分类Dev

运行时错误:外部表的格式不正确

来自分类Dev

表中新插入的行的格式不正确

Related 相关文章

  1. 1

    在同一列中设置单选按钮和条目的位置,但结果不正确

  2. 2

    在同一列中设置单选按钮和条目的位置,但结果不正确

  3. 3

    pandas数据框中的第一列不正确?

  4. 4

    如何使用熊猫从python中的数据集中查找和更正日期格式不正确的日期

  5. 5

    使用excel从不正确的格式中获取日期值

  6. 6

    使用BeautifulSoup从HTML表中刮取一列

  7. 7

    错误外部表的格式不正确

  8. 8

    Collapsingtoolbar和cardview格式不正确

  9. 9

    熊猫数据框中的列获取不正确的值

  10. 10

    Xml Python-格式不正确

  11. 11

    angularjs中不正确的日期格式

  12. 12

    AngularJS中的格式验证不正确

  13. 13

    从Python中的代码获取不正确的输出

  14. 14

    使用Angular的HTML表中的行总和不正确

  15. 15

    使用 SQL Server 从每个表和每一列中获取不同的值

  16. 16

    仅使用sed或perl修复格式不正确的CSV和不正确的换行符

  17. 17

    jQuery的高度,Chrome中的每个高度和CSS一起使用均不正确

  18. 18

    如何使用 Python 在 Spark 1.6 中解析格式不正确的 JSON 字符串,其中包含空格、额外的双引号和反斜杠?

  19. 19

    表的列宽不正确

  20. 20

    使用PDO从表的一列中获取值

  21. 21

    如何使用python bs4获取Wikipedia表中的第一列值?

  22. 22

    MySQL致命错误:无法打开和锁定特权表:不正确的文件格式“用户”

  23. 23

    在同一列中分配过滤值的结果不正确

  24. 24

    在同一列中分配过滤值的结果不正确

  25. 25

    使用的样式表不正确

  26. 26

    外键约束的格式不正确[同一表]

  27. 27

    Excel宏将格式不正确的数据复制到表中

  28. 28

    运行时错误:外部表的格式不正确

  29. 29

    表中新插入的行的格式不正确

热门标签

归档