网络抓取多个页面的最终数据帧

马克西(Maciek Paciarski)

我想创建一个熊猫数据框,其中包含满足条件的所有行(我设法做到了),这些行是从一个多页网站中刮取的。但是最终结果是,我得到的熊猫数据框只包含属于该行的行我在循环中声明的范围的最后一页。如果有人指出错误出在哪里,而不是所有页面的结果,我将不胜感激。

import requests
import pandas
from bs4 import BeautifulSoup

headers= {'User-Agent': 'Mozilla/5.0'}


for num in range (1,3):
    url =' https://biznes.interia.pl/gieldy/notowania-gpw/profil-akcji-grn,wId,7380,tab,przebieg-sesji,pack,{}'.format(num)
     

    response = requests.get(url,headers=headers)
    content = response.content
    soup = BeautifulSoup(content,"html.parser")

    notow = soup.find_all('table',class_ = 'business-table-trading-table')
    #on a given page, select only the rows containing the word "Transakcja" 
    rows = notow[0].select('tr:has(td:contains("TRANSAKCJA"))')
     
    data = []
    
    for row in rows :
        cols = row.find_all('td')
         
        cols = [ele.text.strip() for ele in cols]
         
        cols = data.append([ele for ele in cols if ele] )
        
         
 #final dataframe which should have  contained  the result from  all scraped pages        
        
df = pandas.DataFrame(data,)      
                      
print(df)
海豆

将代码data = []放在循环之外。

现在,提取到列表data的项目将在上一次循环迭代中重新初始化为空列表,从而有效擦除在前两次循环迭代中提取的所有项目。

通常,除非您仅在循环内使用变量,否则避免在循环内初始化变量。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

网络抓取多个页面的最终数据帧

来自分类Dev

从具有多个页面的网站抓取数据

来自分类Dev

跨多个页面的R Web抓取

来自分类Dev

无法抓取遍历多个页面的内容

来自分类Dev

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

来自分类Dev

使用URL中的变量循环抓取网站中多个页面的数据

来自分类Dev

从多个页面中抓取相同的数据

来自分类Dev

Scrapy - 当 href = # 时从多个页面抓取数据

来自分类Dev

如何列出使用 Scrapy 抓取数据的页面的 URL?

来自分类Dev

抓取抓取多个页面,提取数据并保存到mysql中

来自分类Dev

网络抓取页面的输出未附加到上一页的输出

来自分类Dev

Scrapy,抓取一个包含多个页面的动态页面

来自分类Dev

抓取抓取多个页面[3级],但抓取的数据无法正确链接

来自分类Dev

网络抓取td数据

来自分类Dev

无法抓取多个页面

来自分类Dev

如何使用yield函数从多个页面抓取数据

来自分类Dev

使用 Beautiful Soup 和 Python 抓取多个搜索页面的结果

来自分类Dev

从.aspx页面抓取数据

来自分类Dev

从页面抓取数据

来自分类Dev

动态加载页面的python web抓取

来自分类Dev

如何抓取页面的动态URL?

来自分类Dev

从多个链接抓取数据

来自分类Dev

BeautifulSoup 无法抓取多个页面

来自分类Dev

避免从已经被抓取的页面中抓取数据

来自分类Dev

使用bs4在同一页面的多个表中抓取特定的html表

来自分类Dev

从Wikipedia页面抓取表格数据

来自分类Dev

从网络外部访问aspx页面的URL?

来自分类Dev

多个页面的HTML页面模板

来自分类Dev

列出多个父页面的子页面