尝试创建一个简单的python Web搜寻器

debugcn 发表于 Dev

托尼·马丁（Tony Martial）

我决定学习用于数据分析的python 2.7编码，并一直在youtube上观看许多教程，以对基本知识有很好的理解。

我正处于一个阶段，我想创建简单的网络爬虫用于教育目的，只是为了学习不同的技术，并且习惯一些编码。

我正在关注网络爬虫的教程，但是我不确定几件事。这是我到目前为止的内容：

import requests
from bs4 import BeautifulSoup
url = 'http://www.aflcio.org/Legislation-and-Politics/Legislative-Alerts'
r = requests.get(url)
plain_text = r.text
soup = BeautifulSoup(plain_text, 'html.parser')
statements = soup.findAll('div','ec_statements')

for link in statements:
    print (link.contents)

我似乎无法分开href链接并显示文本和日期信息。

我希望它看起来像这样：

文章名称
链接到文章
文章日期

有人可以提供一些有关为何采取这些步骤的信息吗？

非常感激！

彼得林

一些代码可以帮助您。在bs4中，所有节点都是连接，您都读取了一个“ link”节点（实际上是一个div），您想让他的孩子喜欢标记a，所以link.a还可以。

那么，一个节点具有两个部分值，一个是attribute，由by进行访问a['href']，而content则由进行访问a.text。

for link in statements:
    print(link.a['href'])

ps：这是链接变量：

<div id="legalert_title"><a href="/Legislation-and-Politics/Legislative-Alerts/Letter-to-Representatives-opposing-the-Fairness-in-Class-Action-Litigation-and-Furthering-Asbestos-Claim-Transparency-Act">Letter to Representatives opposing the "Fairness in Class Action Litigation and Furthering Asbestos Claim Transparency Act"</a></div>

这是link.a：

<a href="/Legislation-and-Politics/Legislative-Alerts/Letter-to-Representatives-opposing-the-Fairness-in-Class-Action-Litigation-and-Furthering-Asbestos-Claim-Transparency-Act">Letter to Representatives opposing the "Fairness in Class Action Litigation and Furthering Asbestos Claim Transparency Act"</a>

这是link.a ['href']：

/Legislation-and-Politics/Legislative-Alerts/Letter-to-Representatives-opposing-the-Fairness-in-Class-Action-Litigation-and-Furthering-Asbestos-Claim-Transparency-Act

这是.text：

Letter to Representatives opposing the "Fairness in Class Action Litigation and Furthering Asbestos Claim Transparency Act"

所有的html都是这样，也许您需要学习一点html。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-3

我来说两句

0条评论

登录后参与评论

来自分类Dev

Web搜寻器尝试

来自分类Dev

Python Web搜寻器，深度问题

来自分类Dev

Web搜寻器中的Python重复项

来自分类Dev

Python搜寻器验证图片

来自分类Dev

Python中的多线程搜寻器

来自分类Dev

Python搜寻器：下载HTML页面

来自分类Dev

python中的多线程搜寻器

来自分类Dev

Python BeautifulSoup Web图像搜寻器IOError：[Errno 2]没有这样的文件或目录

来自分类Dev

Python-使用BeautifulSoup4的Reddit Web搜寻器不返回任何内容

来自分类Dev

Python Web搜寻器（NameError：未定义名称“ spider”）

来自分类Dev

简单的Python搜寻器/ Spider运行时错误

来自分类Dev

如何防止Google Web搜寻器将单个页面读取为两个不同的页面

来自分类Dev

如何通过搜寻器获取简单信息

来自分类Dev

如何通过搜寻器获取简单信息

来自分类Dev

创建一个网页搜寻器来查找和匹配用户输入

来自分类Dev

尝试使用ZeroMQ构建分布式搜寻器

来自分类Dev

创建AWS粘合作业是否需要搜寻器？

来自分类Dev

Python搜寻器未找到特定的Xpath

来自分类Dev

一个自包含的python文件中的网络搜寻器

来自分类Dev

尝试创建一个简单的总和计算器

来自分类Dev

Web搜寻器在列表之间提取

来自分类Dev

Web搜寻器网址错误

来自分类Dev

Web搜寻器-以下链接

来自分类Dev

运行scrapy搜寻器的最简单方法，因此它不会阻止脚本

来自分类Dev

如何使用boto3更改由AWS Glue搜寻器创建的表的名称

来自分类Dev

PHP搜寻器，用于一种特殊的HTML元素

来自分类Dev

如何将我的Python搜寻器输出保存到JSON文件？

来自分类Dev

如何使用网络搜寻器从URL获取正确的源代码与Python？

来自分类Dev

Python搜寻器| 从应用程序/ ld + json访问的“ URL”参数

Related 相关文章

文章