有没有办法读取表格单元格中的链接以及使用 pandas 和 beautifulsoup 的值

费萨尔

我有一个有行的表,每行有 6 列。我已阅读列中的值并将它们添加到数据框中,但我也想添加第 1 列和第 6 列中的链接。我承认我是 python 的新手。我需要帮助。

我已经尝试创建一个新的数据帧并将链接存储在第一列中,但是两个数据帧中的行并不相等。

import urllib3
from bs4 import BeautifulSoup
import pandas as pd
import time

COLUMNS = ['Legal Name', 'Status', 'Size', 'Suburb or Town', 'State', 'ABN']
COLUMNS2 = ['Link1']

urls = []
for i in range(3):
     quotepage = "https://www.acnc.gov.au/charity?items_per_page=60&"
     quotepage = quotepage + "facet__select__field_beneficiaries=0&"
     quotepage = quotepage + "facet__select__field_countries=0&"
     quotepage = quotepage + "facet__select__acnc_search_api_sub_history=0&"
     quotepage = quotepage + "facet__select__field_status=307&"
     quotepage = quotepage + "page="+str(i)+"#search"

     #print (quotepage)
     urls.append(quotepage)

i=0

dataframes = []
dataframes2 = []

cy_data = []
cy_data2 = []
for url in urls:
    i=i+1
    print(i)
    http = urllib3.PoolManager()
    response = http.request('GET', url)
    soup = BeautifulSoup(response.data, "html5lib")
    pagetable = soup.find('table')
    rows = soup.find("table").find_all('tr') 

    time.sleep(.5)
    for row in rows:
        cells = row.find_all("td") 
        cells = cells[0:6] # Select the correct columns
        cy_data.append([cell.text.strip() for cell in cells])

    links = pagetable.find_all("a")
    for link in links:
        if len(link["href"]) == 41:# href for charity
             cy_data2.append(link["href"])

dataframes.append(pd.DataFrame(cy_data, columns=COLUMNS).drop(0, axis=0))
dataframes2.append(pd.DataFrame(cy_data2, columns=COLUMNS2).drop(0, axis=0))
#data = pd.concat([dataframes, dataframes2], axis=1)
 data = pd.concat(dataframes)
 data2 = pd.concat(dataframes2)

我想将链接添加到数据框,仅此而已。

哈立德·阿里

不要从 DataFrame 中删除零索引,如下所示:

dataframes.append(pd.DataFrame(cy_data, columns=COLUMNS))
dataframes2.append(pd.DataFrame(cy_data2, columns=COLUMNS2))

并将查找表行代码更改为:

rows = soup.find("table").find("tbody").find_all('tr')

结果:

DataFrame 1  [180 rows x 6 columns]
DataFrame 2  [180 rows x 1 columns]

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用BeautifulSoup获取属性的值

来自分类Dev

使用Beautifulsoup和Mechanize从元素解析href属性值

来自分类Dev

使用Pandas和Anaconda的Python值错误

来自分类Dev

使用BeautifulSoup和Requests提取HTML单元格数据

来自分类Dev

使用Python和BeautifulSoup查找某些表单元格值,然后打印整行?

来自分类Dev

使用BeautifulSoup和Requests和Pandas从<div>中的<span>抓取数据

来自分类Dev

有没有一种方法可以用列名称,第一列中的行值和值本身替换数据框中的每个单元格值?

来自分类Dev

使用BeautifulSoup和pandas将列表项标题下的文本刮到一列中

来自分类Dev

有没有办法从单个列表制作字典,该字典的键和值取自特定索引

来自分类Dev

在使用BeautifulSoup和pandas将索引与标头值匹配的同时,在标头下方刮擦文本

来自分类Dev

使用pandas和pandastable将值插入选定的单元格

来自分类Dev

复制和替换Pandas单元格值

来自分类Dev

有没有一种方法可以使用pyplot和pandas绘制所有在Python中仅具有特定值的列?

来自分类Dev

在Pandas的BeautifulSoup中抓取onclick值

来自分类Dev

有没有办法替换符号链接的值?

来自分类Dev

使用Python和BeautifulSoup查找某些表单元格值,然后打印整行?

来自分类Dev

访问表格-如果单元格中有数据,如何仅显示字段和单元格值?

来自分类Dev

有没有办法将左值和右值列表分别转换为具有引用类型和完整类型的元组元组?

来自分类Dev

Beautifulsoup 找到没有值的标签和属性?

来自分类Dev

使用 ElementTree 和 BeautifulSoup 解析文件:有没有办法按标签级别数解析文件?

来自分类Dev

使用 BeautifulSoup 解析和提取数据到 Pandas

来自分类Dev

如何使用beautifulsoup在表格中找到某个单元格的值

来自分类Dev

在 Pandas 数据框中查找任何单元格值 >= x 并返回单元格值、列标题、行和相邻单元格值

来自分类Dev

有没有办法搜索和隐藏所有不包含在给定单元格中输入的值的列?

来自分类Dev

有没有办法使用单元格值中包含范围单元格的 VLOOKUP

来自分类Dev

有没有办法使用 BeautifulSoup/requests 抓取搜索框,然后搜索和刷新?

来自分类Dev

有没有办法使用 Pandas 将行值拆分为单独的列?

来自分类Dev

有没有办法将插入的值例如 1234567890 拆分为 12345 和 67890?

来自分类Dev

在beautifulsoup python中连接和删除td单元格

Related 相关文章

  1. 1

    使用BeautifulSoup获取属性的值

  2. 2

    使用Beautifulsoup和Mechanize从元素解析href属性值

  3. 3

    使用Pandas和Anaconda的Python值错误

  4. 4

    使用BeautifulSoup和Requests提取HTML单元格数据

  5. 5

    使用Python和BeautifulSoup查找某些表单元格值,然后打印整行?

  6. 6

    使用BeautifulSoup和Requests和Pandas从<div>中的<span>抓取数据

  7. 7

    有没有一种方法可以用列名称,第一列中的行值和值本身替换数据框中的每个单元格值?

  8. 8

    使用BeautifulSoup和pandas将列表项标题下的文本刮到一列中

  9. 9

    有没有办法从单个列表制作字典,该字典的键和值取自特定索引

  10. 10

    在使用BeautifulSoup和pandas将索引与标头值匹配的同时,在标头下方刮擦文本

  11. 11

    使用pandas和pandastable将值插入选定的单元格

  12. 12

    复制和替换Pandas单元格值

  13. 13

    有没有一种方法可以使用pyplot和pandas绘制所有在Python中仅具有特定值的列?

  14. 14

    在Pandas的BeautifulSoup中抓取onclick值

  15. 15

    有没有办法替换符号链接的值?

  16. 16

    使用Python和BeautifulSoup查找某些表单元格值,然后打印整行?

  17. 17

    访问表格-如果单元格中有数据,如何仅显示字段和单元格值?

  18. 18

    有没有办法将左值和右值列表分别转换为具有引用类型和完整类型的元组元组?

  19. 19

    Beautifulsoup 找到没有值的标签和属性?

  20. 20

    使用 ElementTree 和 BeautifulSoup 解析文件:有没有办法按标签级别数解析文件?

  21. 21

    使用 BeautifulSoup 解析和提取数据到 Pandas

  22. 22

    如何使用beautifulsoup在表格中找到某个单元格的值

  23. 23

    在 Pandas 数据框中查找任何单元格值 >= x 并返回单元格值、列标题、行和相邻单元格值

  24. 24

    有没有办法搜索和隐藏所有不包含在给定单元格中输入的值的列?

  25. 25

    有没有办法使用单元格值中包含范围单元格的 VLOOKUP

  26. 26

    有没有办法使用 BeautifulSoup/requests 抓取搜索框,然后搜索和刷新?

  27. 27

    有没有办法使用 Pandas 将行值拆分为单独的列?

  28. 28

    有没有办法将插入的值例如 1234567890 拆分为 12345 和 67890?

  29. 29

    在beautifulsoup python中连接和删除td单元格

热门标签

归档