如何使用BeautifulSoup和Python抓取页面?

jm22b

我正在尝试从BBC美食网站上提取信息,但是在缩小我正在收集的数据方面遇到了一些麻烦。

这是我到目前为止的内容:

from bs4 import BeautifulSoup
import requests

webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)
links = soup.find_all("a")

for anchor in links:
    print(anchor.get('href')), anchor.text

这将返回所涉及页面的所有链接以及该链接的文本描述,但是我想从页面上的“文章”类型对象中提取链接。这些是特定配方的链接。

通过一些实验,我设法从文章中返回了文本,但是我似乎无法提取链接。

帕德拉克·坎宁安

我看到的与文章标签相关的仅有两件事是href和img.src:

from bs4 import BeautifulSoup
import requests

webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)
links = soup.find_all("article")

for ele in links:
    print(ele.a["href"])
    print(ele.img["src"])

链接在 "class=node-title"

from bs4 import BeautifulSoup
import requests

webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)


links = soup.find("div",{"class":"main row grid-padding"}).find_all("h2",{"class":"node-title"})

for l in links:
    print(l.a["href"])

/recipes/681646/tomato-tart
/recipes/4468/stuffed-tomatoes
/recipes/1641/charred-tomatoes
/recipes/tomato-confit
/recipes/1575635/roast-tomatoes
/recipes/2536638/tomato-passata
/recipes/2518/cherry-tomatoes
/recipes/681653/stuffed-tomatoes
/recipes/2852676/tomato-sauce
/recipes/2075/tomato-soup
/recipes/339605/tomato-sauce
/recipes/2130/essence-of-tomatoes-
/recipes/2942/tomato-tarts
/recipes/741638/fried-green-tomatoes-with-ripe-tomato-salsa
/recipes/3509/honey-and-thyme-tomatoes

要访问,您需要先添加http://www.bbcgoodfood.com

for l in links:
       print(requests.get("http://www.bbcgoodfood.com{}".format(l.a["href"])).status
200
200
200
200
200
200
200
200
200
200

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用BeautifulSoup和Python刮取多个页面

来自分类Dev

使用BeautifulSoup网站抓取IMDb页面

来自分类Dev

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

来自分类Dev

如何使用Python和BeautifulSoup抓取-使用Javascript处理表格

来自分类Dev

如何使用Python 3.5和BeautifulSoup抓取href

来自分类Dev

无法使用python和beautifulsoup抓取网页中的某些href

来自分类Dev

Web使用BeautifulSoup抓取多个页面

来自分类Dev

如何使用Python和BeautifulSoup抓取多个Google页面

来自分类Dev

使用python和BeautifulSoup进行网络抓取

来自分类Dev

如何使用BeautifulSoup创建循环以从源URL抓取多个页面?

来自分类Dev

使用Beautifulsoup和Python进行Web抓取不起作用

来自分类Dev

Python-使用BeautifulSoup在页面内抓取多个类

来自分类Dev

使用Python和BeautifulSoup抓取时模拟点击链接

来自分类Dev

使用python和beautifulsoup抓取多页网站

来自分类Dev

使用python和BeautifulSoup抓取数据时,Float的无效侧向

来自分类Dev

python beautifulsoup抓取存档页面

来自分类Dev

使用 Beautifulsoup 和 Python 抓取复杂的表格

来自分类Dev

使用python 2.7和beautifulsoup 4进行网站抓取

来自分类Dev

使用 BeautifulSoup 和 Python 抓取多个表格页面

来自分类Dev

如何使用python BeautifulSoup通过分页抓取页面

来自分类Dev

使用 Python 和 BeautifulSoup 抓取 alt 标签

来自分类Dev

使用 Python 和 BeautifulSoup 的网页抓取 - 错误消息不确定如何修复

来自分类Dev

网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

来自分类Dev

使用 python 和 BeautifulSoup 抓取不完整的标签

来自分类Dev

如何使用 Python BeautifulSoup 抓取 ID

来自分类Dev

Python - 使用 BeautifulSoup 和 Urllib 进行抓取

来自分类Dev

使用 Python、Selenium 和 BeautifulSoup 来抓取标签的内容?

来自分类Dev

使用 BeautifulSoup 在 python 中抓取多个页面

来自分类Dev

使用 BeautifulSoup 从抓取的页面中提取文本

Related 相关文章

  1. 1

    使用BeautifulSoup和Python刮取多个页面

  2. 2

    使用BeautifulSoup网站抓取IMDb页面

  3. 3

    如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

  4. 4

    如何使用Python和BeautifulSoup抓取-使用Javascript处理表格

  5. 5

    如何使用Python 3.5和BeautifulSoup抓取href

  6. 6

    无法使用python和beautifulsoup抓取网页中的某些href

  7. 7

    Web使用BeautifulSoup抓取多个页面

  8. 8

    如何使用Python和BeautifulSoup抓取多个Google页面

  9. 9

    使用python和BeautifulSoup进行网络抓取

  10. 10

    如何使用BeautifulSoup创建循环以从源URL抓取多个页面?

  11. 11

    使用Beautifulsoup和Python进行Web抓取不起作用

  12. 12

    Python-使用BeautifulSoup在页面内抓取多个类

  13. 13

    使用Python和BeautifulSoup抓取时模拟点击链接

  14. 14

    使用python和beautifulsoup抓取多页网站

  15. 15

    使用python和BeautifulSoup抓取数据时,Float的无效侧向

  16. 16

    python beautifulsoup抓取存档页面

  17. 17

    使用 Beautifulsoup 和 Python 抓取复杂的表格

  18. 18

    使用python 2.7和beautifulsoup 4进行网站抓取

  19. 19

    使用 BeautifulSoup 和 Python 抓取多个表格页面

  20. 20

    如何使用python BeautifulSoup通过分页抓取页面

  21. 21

    使用 Python 和 BeautifulSoup 抓取 alt 标签

  22. 22

    使用 Python 和 BeautifulSoup 的网页抓取 - 错误消息不确定如何修复

  23. 23

    网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

  24. 24

    使用 python 和 BeautifulSoup 抓取不完整的标签

  25. 25

    如何使用 Python BeautifulSoup 抓取 ID

  26. 26

    Python - 使用 BeautifulSoup 和 Urllib 进行抓取

  27. 27

    使用 Python、Selenium 和 BeautifulSoup 来抓取标签的内容?

  28. 28

    使用 BeautifulSoup 在 python 中抓取多个页面

  29. 29

    使用 BeautifulSoup 从抓取的页面中提取文本

热门标签

归档