带有请求和beautifulsoup的Python Scrape

shakthydoss 发表于 Dev

Shakthydoss

我正在尝试使用python请求和beautifulsoup进行消费消费。基本上我正在爬亚马逊网页。我能够毫无问题地抓取首页。

r = requests.get("http://www.amazon.in/gp/bestsellers/books/ref=nav_shopall_books_bestsellers")
#do some thing

但是，当我尝试使用网址“＃2”抓取第二页时

r = requests.get("http://www.amazon.in/gp/bestsellers/books/ref=nav_shopall_books_bestsellers#2")

我看到r的值仍等于1页的值。

r = requests.get("http://www.amazon.in/gp/bestsellers/books/ref=nav_shopall_books_bestsellers")

不知道是＃2在向第二页发出请求时引起任何麻烦。我也在Google上搜索了有关问题，但找不到解决方法。用#values进行网址请求的正确方法是什么。如何解决这个问题。请指教。

Salmanwahed

您需要在href描述分页的锚标记的属性中请求url 。在页面的底部。如果我在Google Chrome浏览器的开发者控制台中检查页面，url则会发现第一页是这样的：

http://www.amazon.in/gp/bestsellers/books/ref=zg_bs_books_pg_1?ie=UTF8&pg=1

第二页的网址是这样的：

http://www.amazon.in/gp/bestsellers/books/ref=zg_bs_books_pg_2?ie=UTF8&pg=2

a 第二页的标签是这样的：

<a page="2" ajaxUrl="http://www.amazon.in/gp/bestsellers/books/ref=zg_bs_books_pg_2?ie=UTF8&pg=2&ajax=1" href="http://www.amazon.in/gp/bestsellers/books/ref=zg_bs_books_pg_2?ie=UTF8&pg=2">21-40</a>

因此，您需要更改请求网址。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-21

我来说两句

0条评论

登录后参与评论

上一篇：保存Typescript文件时，Visual Studio 2015 RC不会创建源地图

来自分类Dev

带有Python请求库的Cant Scrape网页

来自分类Dev

Python：删除带有请求和JSON的函数

来自分类Dev

Python 3 Scrape黄页

来自分类Dev

带有类别名称的表的Python scrape网站w / BeautifulSoup4 shwoing属性错误

来自分类Dev

Beautifulsoup Python Youtube Scrape无法正常工作

来自分类Dev

Python + Selenium Scrape错误：ElementNotVisibleException

来自分类Dev

带有xpath的Python2 Scrape html

来自分类Dev

Python Web Scrape将输出写入文件

来自分类Dev

Scrape Wikipedia使用Python，精美汤

来自分类Dev

来自网站的python selenium scrape href（链接）

来自分类Dev

每个帖子的Python Scrape论坛标题

来自分类Dev

Python Web Scrape将输出写入文件

来自分类Dev

使用带有请求和 lxml 的 xpath 进行抓取但有问题

来自分类Dev

Python发布带有请求的cookie

来自分类Dev

在python中处理带有请求的发布数据

来自分类Dev

Python 选择带有请求的下拉值

来自分类Dev

诊断带有请求的挂起请求

来自分类Dev

诊断带有请求的挂起请求

来自分类Dev

用Python从Unicode Web Scrape输出ascii文件

来自分类Dev

Python Web scrape使用后端json数据文件

来自分类Dev

使用Python的Google Scrape中错误的结果数

来自分类Dev

带有请求的“点击”按钮

来自分类Dev

带有请求的“点击”按钮

来自分类Dev

处理带有请求的错误URL

来自分类Dev

无法登录带有请求的表单

来自分类Dev

Python Web Scrape using Beautiful Soup - 从页面返回所有产品详细信息

来自分类Dev

带有请求主体的Elasticsearch GET请求

来自分类Dev

How to scrape with BeautifulSoup waiting a second to save the soup element to let elements load complete in the page

来自分类Dev

如何通过带有请求模块的Python在json中打印Twitter处理？

Related 相关文章

文章