使用 BeautifulSoup FindAll 进行网页抓取

尼古拉·塔尔塔利亚

我想在下面的网站上下载NEED TO KNOW上面的4篇文章的hrefs:

http://www.marketwatch.com/

但我无法使用 FindAll 唯一地识别它们。以下方法为我提供了符合这些标准的文章,还有一堆其他文章。

trend_articles  = soup1.findAll("a", {"class": "link"})
href= article.a["href"]

trend_articles  = soup1.findAll("div", {"class": "content--secondary"})
href= article.a["href"]

有人有建议,我如何才能获得这 4 篇文章,而且只有这 4 篇文章?

罗曼·阿列克谢耶夫

这似乎对我有用:

from bs4 import BeautifulSoup
import requests

page = requests.get("http://www.marketwatch.com/").content
soup = BeautifulSoup(page, 'lxml')
header_secondare = soup.find('header', {'class': 'header--secondary'})
trend_articles = header_secondare.find_next_siblings('div', {'class': 'group group--list '})[0].findAll('a')

trend_articles = [article.contents[0] for article in trend_articles]
print(trend_articles)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用 BeautifulSoup 进行网页抓取

来自分类Dev

使用 BeautifulSoup 进行网页抓取 -- Python

来自分类Dev

使用 Python BeautifulSoup 进行网页抓取

来自分类Dev

使用BeautifulSoup抓取网页

来自分类Dev

使用 BeautifulSoup 抓取网页

来自分类Dev

使用Beautifulsoup进行网页抓取,带来了不同的内容

来自分类Dev

使用BeautifulSoup Python抓取网页

来自分类Dev

使用BeautifulSoup Python抓取网页

来自分类Dev

使用 Beautifulsoup 抓取 UEFA 网页

来自分类Dev

用beautifulsoup进行网页抓取

来自分类Dev

使用BeautifulSoup使用Python抓取ASPX网页

来自分类Dev

Python字符串转换为int / float [使用BeautifulSoup进行熊猫/网页抓取]

来自分类Dev

使用BeautifulSoup进行网页抓取只能获得一半的内容

来自分类Dev

使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

来自分类Dev

使用beautifulsoup进行Python网页抓取-无法从Clinicaltrials.gov提取首席调查员

来自分类Dev

使用 BeautifulSoup 进行网页抓取时如何移动到新页面?

来自分类Dev

使用 Beautifulsoup 进行网页抓取 - 输出无意合并的单词(例如,ThisHappens)

来自分类Dev

使用BeautifulSoup从网页中抓取特定链接

来自分类Dev

如何使用BeautifulSoup抓取缺少标签的网页

来自分类Dev

使用 BeautifulSoup 通过分页抓取网页

来自分类Dev

使用 BeautifulSoup 抓取网页 Javascript 表

来自分类Dev

使用 BeautifulSoup 抓取网页时出错

来自分类Dev

AttributeError:“ str”对象没有属性“ findAll”,使用BeautifulSoup从Youtube抓取数据时没有输出

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用PhantomJS进行网页抓取

来自分类Dev

使用SED进行网页抓取

来自分类Dev

使用R进行网页抓取

来自分类Dev

使用Python进行网页抓取

来自分类Dev

使用Rcurl进行网页抓取

Related 相关文章

  1. 1

    如何使用 BeautifulSoup 进行网页抓取

  2. 2

    使用 BeautifulSoup 进行网页抓取 -- Python

  3. 3

    使用 Python BeautifulSoup 进行网页抓取

  4. 4

    使用BeautifulSoup抓取网页

  5. 5

    使用 BeautifulSoup 抓取网页

  6. 6

    使用Beautifulsoup进行网页抓取,带来了不同的内容

  7. 7

    使用BeautifulSoup Python抓取网页

  8. 8

    使用BeautifulSoup Python抓取网页

  9. 9

    使用 Beautifulsoup 抓取 UEFA 网页

  10. 10

    用beautifulsoup进行网页抓取

  11. 11

    使用BeautifulSoup使用Python抓取ASPX网页

  12. 12

    Python字符串转换为int / float [使用BeautifulSoup进行熊猫/网页抓取]

  13. 13

    使用BeautifulSoup进行网页抓取只能获得一半的内容

  14. 14

    使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

  15. 15

    使用beautifulsoup进行Python网页抓取-无法从Clinicaltrials.gov提取首席调查员

  16. 16

    使用 BeautifulSoup 进行网页抓取时如何移动到新页面?

  17. 17

    使用 Beautifulsoup 进行网页抓取 - 输出无意合并的单词(例如,ThisHappens)

  18. 18

    使用BeautifulSoup从网页中抓取特定链接

  19. 19

    如何使用BeautifulSoup抓取缺少标签的网页

  20. 20

    使用 BeautifulSoup 通过分页抓取网页

  21. 21

    使用 BeautifulSoup 抓取网页 Javascript 表

  22. 22

    使用 BeautifulSoup 抓取网页时出错

  23. 23

    AttributeError:“ str”对象没有属性“ findAll”,使用BeautifulSoup从Youtube抓取数据时没有输出

  24. 24

    使用R进行网页抓取

  25. 25

    使用PhantomJS进行网页抓取

  26. 26

    使用SED进行网页抓取

  27. 27

    使用R进行网页抓取

  28. 28

    使用Python进行网页抓取

  29. 29

    使用Rcurl进行网页抓取

热门标签

归档