如何使用BeautifulSoup和Python抓取页面？

jm22b 发表于 Dev

jm22b

我正在尝试从BBC美食网站上提取信息，但是在缩小我正在收集的数据方面遇到了一些麻烦。

这是我到目前为止的内容：

from bs4 import BeautifulSoup
import requests

webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)
links = soup.find_all("a")

for anchor in links:
    print(anchor.get('href')), anchor.text

这将返回所涉及页面的所有链接以及该链接的文本描述，但是我想从页面上的“文章”类型对象中提取链接。这些是特定配方的链接。

通过一些实验，我设法从文章中返回了文本，但是我似乎无法提取链接。

帕德拉克·坎宁安

我看到的与文章标签相关的仅有两件事是href和img.src：

from bs4 import BeautifulSoup
import requests

webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)
links = soup.find_all("article")

for ele in links:
    print(ele.a["href"])
    print(ele.img["src"])

链接在 "class=node-title"

from bs4 import BeautifulSoup
import requests

webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)


links = soup.find("div",{"class":"main row grid-padding"}).find_all("h2",{"class":"node-title"})

for l in links:
    print(l.a["href"])

/recipes/681646/tomato-tart
/recipes/4468/stuffed-tomatoes
/recipes/1641/charred-tomatoes
/recipes/tomato-confit
/recipes/1575635/roast-tomatoes
/recipes/2536638/tomato-passata
/recipes/2518/cherry-tomatoes
/recipes/681653/stuffed-tomatoes
/recipes/2852676/tomato-sauce
/recipes/2075/tomato-soup
/recipes/339605/tomato-sauce
/recipes/2130/essence-of-tomatoes-
/recipes/2942/tomato-tarts
/recipes/741638/fried-green-tomatoes-with-ripe-tomato-salsa
/recipes/3509/honey-and-thyme-tomatoes

要访问，您需要先添加http://www.bbcgoodfood.com：

for l in links:
       print(requests.get("http://www.bbcgoodfood.com{}".format(l.a["href"])).status
200
200
200
200
200
200
200
200
200
200

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-20

我来说两句

0条评论

登录后参与评论

上一篇：Excel oleobject无法删除

来自分类Dev

使用BeautifulSoup和Python刮取多个页面

来自分类Dev

使用BeautifulSoup网站抓取IMDb页面

来自分类Dev

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

来自分类Dev

如何使用Python和BeautifulSoup抓取-使用Javascript处理表格

来自分类Dev

如何使用Python 3.5和BeautifulSoup抓取href

来自分类Dev

无法使用python和beautifulsoup抓取网页中的某些href

来自分类Dev

Web使用BeautifulSoup抓取多个页面

来自分类Dev

如何使用Python和BeautifulSoup抓取多个Google页面

来自分类Dev

使用python和BeautifulSoup进行网络抓取

来自分类Dev

如何使用BeautifulSoup创建循环以从源URL抓取多个页面？

来自分类Dev

使用Beautifulsoup和Python进行Web抓取不起作用

来自分类Dev

Python-使用BeautifulSoup在页面内抓取多个类

来自分类Dev

使用Python和BeautifulSoup抓取时模拟点击链接

来自分类Dev

使用python和beautifulsoup抓取多页网站

来自分类Dev

使用python和BeautifulSoup抓取数据时，Float的无效侧向

来自分类Dev

python beautifulsoup抓取存档页面

来自分类Dev

使用 Beautifulsoup 和 Python 抓取复杂的表格

来自分类Dev

使用python 2.7和beautifulsoup 4进行网站抓取

来自分类Dev

使用 BeautifulSoup 和 Python 抓取多个表格页面

来自分类Dev

如何使用python BeautifulSoup通过分页抓取页面

来自分类Dev

使用 Python 和 BeautifulSoup 抓取 alt 标签

来自分类Dev

使用 Python 和 BeautifulSoup 的网页抓取 - 错误消息不确定如何修复

来自分类Dev

网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本？

来自分类Dev

使用 python 和 BeautifulSoup 抓取不完整的标签

来自分类Dev

如何使用 Python BeautifulSoup 抓取 ID

来自分类Dev

Python - 使用 BeautifulSoup 和 Urllib 进行抓取

来自分类Dev

使用 Python、Selenium 和 BeautifulSoup 来抓取标签的内容？

来自分类Dev

使用 BeautifulSoup 在 python 中抓取多个页面

来自分类Dev

使用 BeautifulSoup 从抓取的页面中提取文本

Related 相关文章

文章