使用python为多个页面抓取网页

debugcn 发表于 Dev

富加济

我有一个 beautifulsoup 解析器来获取 html 的所有内容。当它有多个页面时，我如何抓取网页。像，myurl = "https://www.mybanktracker.com/ABC-Bank/Reviews" url 有 20 个页面，如https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https:// /www.mybanktracker.com/ABC-Bank/Reviews/pages/2等等。如何将所有页面信息提取为一个页面？或任何其他更简单的方法来做到这一点？

比尔·贝尔

我一直在检查以https://www.mybanktracker.com/TD-Bank/Reviews开头的一系列页面。第一页顶部的格式似乎与第二页和后续页面的格式有所不同。因此，我将假设您正在安排以捕获标题“最新评论”下方的信息的方式解析所有页面。

我建议您while循环处理页面。评论页数可能因银行而异。您可以继续请求页面，直到获得空页面，而不是尝试恢复页面数。（我发现本系列中对“第 52 页”的请求会生成一个没有评论的页面。）这是一些伪代码。

URL = https://www.mybanktracker.com/TD-Bank/Reviews
pageNumber = 1
while True:
    fetch, parse and store information from one page
    if no reviews found in page then break
    pageNumber += 1
    URL = https://www.mybanktracker.com/TD-Bank/Reviews/page/pageNumber

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-11

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

使用python为多个页面抓取网页

使用python为多个页面抓取网页

网页抓取 - 使用 R 的多个页面

使用Python从多个网页中抓取文字

Python + scrapy + 网页抓取：页面未被抓取

使用 BeautifulSoup 在 python 中抓取多个页面

使用R或Python抓取网页和相关的后续页面

使用python访问和网页抓取动态页面

具有多个部分的网页抓取页面

为网页抓取器创建简化的页面

如何使用静态网址抓取多个页面，请求方法为

使用BeautifulSoup Python抓取网页

使用Python进行网页抓取

使用BeautifulSoup Python抓取网页

使用 BS 的 Python 网页抓取

使用python3从网页中抓取特定表格（网页中有多个表格）

从网页 Python 中抓取多个表

使用Selenium（Python3）抓取网站的多个页面

如何使用Python和BeautifulSoup抓取多个Google页面

Python-使用BeautifulSoup在页面内抓取多个类

使用 BeautifulSoup 和 Python 抓取多个表格页面

网页抓取流星页面

网页抓取流星页面

从iframe页面抓取网页

网页抓取python（美丽汤）多页面和子页面

网页抓取：迭代网站页面，无需使用 Python 和请求编辑 url

如何使用python使用scrapy将多个网页抓取的数据输出到csv文件中

使用BeautifulSoup使用Python抓取ASPX网页

使用Python 2.76将多个网页打印为PDF

使用包含 Python 和漂亮汤的 URL 的 .txt 文件从多个网页中抓取数据

使用python在Android上进行网页抓取