我有一个 beautifulsoup 解析器来获取 html 的所有内容。当它有多个页面时,我如何抓取网页。像,myurl = "https://www.mybanktracker.com/ABC-Bank/Reviews" url 有 20 个页面,如https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https://www.mybanktracker.com/ABC-Bank/Reviews/pages/1 https:// /www.mybanktracker.com/ABC-Bank/Reviews/pages/2等等。如何将所有页面信息提取为一个页面?或任何其他更简单的方法来做到这一点?
我一直在检查以https://www.mybanktracker.com/TD-Bank/Reviews开头的一系列页面。第一页顶部的格式似乎与第二页和后续页面的格式有所不同。因此,我将假设您正在安排以捕获标题“最新评论”下方的信息的方式解析所有页面。
我建议您while
循环处理页面。评论页数可能因银行而异。您可以继续请求页面,直到获得空页面,而不是尝试恢复页面数。(我发现本系列中对“第 52 页”的请求会生成一个没有评论的页面。)这是一些伪代码。
URL = https://www.mybanktracker.com/TD-Bank/Reviews
pageNumber = 1
while True:
fetch, parse and store information from one page
if no reviews found in page then break
pageNumber += 1
URL = https://www.mybanktracker.com/TD-Bank/Reviews/page/pageNumber
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句