尝试创建一个简单的python Web搜寻器

托尼·马丁(Tony Martial)

我决定学习用于数据分析的python 2.7编码,并一直在youtube上观看许多教程,以对基本知识有很好的理解。

我正处于一个阶段,我想创建简单的网络爬虫用于教育目的,只是为了学习不同的技术,并且习惯一些编码。

我正在关注网络爬虫的教程,但是我不确定几件事。这是我到目前为止的内容:

import requests
from bs4 import BeautifulSoup
url = 'http://www.aflcio.org/Legislation-and-Politics/Legislative-Alerts'
r = requests.get(url)
plain_text = r.text
soup = BeautifulSoup(plain_text, 'html.parser')
statements = soup.findAll('div','ec_statements')

for link in statements:
    print (link.contents)

我似乎无法分开href链接并显示文本和日期信息。

我希望它看起来像这样:

  1. 文章名称
  2. 链接到文章
  3. 文章日期

有人可以提供一些有关为何采取这些步骤的信息吗?

非常感激!

彼得林

一些代码可以帮助您。在bs4中,所有节点都是连接,您都读取了一个“ link”节点(实际上是一个div),您想让他的孩子喜欢标记a,所以link.a还可以。

那么,一个节点具有两个部分值,一个是attribute,由by进行访问a['href'],而content则由进行访问a.text

for link in statements:
    print(link.a['href'])

ps:这是链接变量:

<div id="legalert_title"><a href="/Legislation-and-Politics/Legislative-Alerts/Letter-to-Representatives-opposing-the-Fairness-in-Class-Action-Litigation-and-Furthering-Asbestos-Claim-Transparency-Act">Letter to Representatives opposing the "Fairness in Class Action Litigation and Furthering Asbestos Claim Transparency Act"</a></div>

这是link.a:

<a href="/Legislation-and-Politics/Legislative-Alerts/Letter-to-Representatives-opposing-the-Fairness-in-Class-Action-Litigation-and-Furthering-Asbestos-Claim-Transparency-Act">Letter to Representatives opposing the "Fairness in Class Action Litigation and Furthering Asbestos Claim Transparency Act"</a>

这是link.a ['href']:

/Legislation-and-Politics/Legislative-Alerts/Letter-to-Representatives-opposing-the-Fairness-in-Class-Action-Litigation-and-Furthering-Asbestos-Claim-Transparency-Act

这是.text:

Letter to Representatives opposing the "Fairness in Class Action Litigation and Furthering Asbestos Claim Transparency Act"

所有的html都是这样,也许您需要学习一点html。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Web搜寻器尝试

来自分类Dev

Python Web搜寻器,深度问题

来自分类Dev

Web搜寻器中的Python重复项

来自分类Dev

Python搜寻器验证图片

来自分类Dev

Python中的多线程搜寻器

来自分类Dev

Python搜寻器:下载HTML页面

来自分类Dev

python中的多线程搜寻器

来自分类Dev

Python BeautifulSoup Web图像搜寻器IOError:[Errno 2]没有这样的文件或目录

来自分类Dev

Python-使用BeautifulSoup4的Reddit Web搜寻器不返回任何内容

来自分类Dev

Python Web搜寻器(NameError:未定义名称“ spider”)

来自分类Dev

简单的Python搜寻器/ Spider运行时错误

来自分类Dev

如何防止Google Web搜寻器将单个页面读取为两个不同的页面

来自分类Dev

如何通过搜寻器获取简单信息

来自分类Dev

如何通过搜寻器获取简单信息

来自分类Dev

创建一个网页搜寻器来查找和匹配用户输入

来自分类Dev

尝试使用ZeroMQ构建分布式搜寻器

来自分类Dev

创建AWS粘合作业是否需要搜寻器?

来自分类Dev

Python搜寻器未找到特定的Xpath

来自分类Dev

一个自包含的python文件中的网络搜寻器

来自分类Dev

尝试创建一个简单的总和计算器

来自分类Dev

Web搜寻器在列表之间提取

来自分类Dev

Web搜寻器网址错误

来自分类Dev

Web搜寻器-以下链接

来自分类Dev

运行scrapy搜寻器的最简单方法,因此它不会阻止脚本

来自分类Dev

如何使用boto3更改由AWS Glue搜寻器创建的表的名称

来自分类Dev

PHP搜寻器,用于一种特殊的HTML元素

来自分类Dev

如何将我的Python搜寻器输出保存到JSON文件?

来自分类Dev

如何使用网络搜寻器从URL获取正确的源代码与Python?

来自分类Dev

Python搜寻器| 从应用程序/ ld + json访问的“ URL”参数

Related 相关文章

热门标签

归档