使用python为多个页面抓取网页

富加济

我有一个 beautifulsoup 解析器来获取 html 的所有内容。当它有多个页面时,我如何抓取网页。像,myurl = "https://www.mybanktracker.com/ABC-Bank/Reviews" url 有 20 个页面,如https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https:// /www.mybanktracker.com/ABC-Bank/Reviews/pages/2等等。如何将所有页面信息提取为一个页面?或任何其他更简单的方法来做到这一点?

比尔·贝尔

我一直在检查以https://www.mybanktracker.com/TD-Bank/Reviews开头的一系列页面第一页顶部的格式似乎与第二页和后续页面的格式有所不同。因此,我将假设您正在安排以捕获标题“最新评论”下方的信息的方式解析所有页面。

我建议您while循环处理页面评论页数可能因银行而异。您可以继续请求页面,直到获得空页面,而不是尝试恢复页面数。(我发现本系列中对“第 52 页”的请求会生成一个没有评论的页面。)这是一些伪代码。

URL = https://www.mybanktracker.com/TD-Bank/Reviews
pageNumber = 1
while True:
    fetch, parse and store information from one page
    if no reviews found in page then break
    pageNumber += 1
    URL = https://www.mybanktracker.com/TD-Bank/Reviews/page/pageNumber

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

网页抓取 - 使用 R 的多个页面

来自分类Dev

使用Python从多个网页中抓取文字

来自分类Dev

Python + scrapy + 网页抓取:页面未被抓取

来自分类Dev

使用 BeautifulSoup 在 python 中抓取多个页面

来自分类Dev

使用R或Python抓取网页和相关的后续页面

来自分类Dev

使用python访问和网页抓取动态页面

来自分类Dev

具有多个部分的网页抓取页面

来自分类Dev

为网页抓取器创建简化的页面

来自分类Dev

如何使用静态网址抓取多个页面,请求方法为

来自分类Dev

使用BeautifulSoup Python抓取网页

来自分类Dev

使用Python进行网页抓取

来自分类Dev

使用BeautifulSoup Python抓取网页

来自分类Dev

使用 BS 的 Python 网页抓取

来自分类Dev

使用python3从网页中抓取特定表格(网页中有多个表格)

来自分类Dev

从网页 Python 中抓取多个表

来自分类Dev

使用Selenium(Python3)抓取网站的多个页面

来自分类Dev

如何使用Python和BeautifulSoup抓取多个Google页面

来自分类Dev

Python-使用BeautifulSoup在页面内抓取多个类

来自分类Dev

使用 BeautifulSoup 和 Python 抓取多个表格页面

来自分类Dev

网页抓取流星页面

来自分类Dev

网页抓取流星页面

来自分类Dev

从iframe页面抓取网页

来自分类Dev

网页抓取python(美丽汤)多页面和子页面

来自分类Dev

网页抓取:迭代网站页面,无需使用 Python 和请求编辑 url

来自分类Dev

如何使用python使用scrapy将多个网页抓取的数据输出到csv文件中

来自分类Dev

使用BeautifulSoup使用Python抓取ASPX网页

来自分类Dev

使用Python 2.76将多个网页打印为PDF

来自分类Dev

使用包含 Python 和漂亮汤的 URL 的 .txt 文件从多个网页中抓取数据

来自分类Dev

使用python在Android上进行网页抓取

Related 相关文章

热门标签

归档