使用 Scrapy 抓取特定网页

王牌

嗨,我是scrapy的菜鸟。我试图从以下页面抓取文章(内容、机构名称、通讯员等):http : //timesofindia.indiatimes.com/topic/Startup

问题是我的蜘蛛返回了大多数文章的正确结果,但对于机构名称为“路透社”的文章(例如 - http://timesofindia.indiatimes.com/business/international-business/novartis-roche-back -french-gene-therapy-start-up-vivet/articleshow/58511702.cms),它只返回一堆转义字符而不是内容(虽然它确实返回标题和机构名称)。这是我的 xpath 变量:

main_path=response.xpath('//div[@class="main-content"]')

yield {

'Headline':"".join(main_path.xpath('.//h1[@class="heading1"]/text()').extract(),

'Correspondent':"".join(main_path.xpath('.//span[@class="auth_detail"]/text()').extract()),

'Agency':"".join(main_path.xpath('.//span[@itemprop="name"]/text()').extract()),

'ArticleContent':(main_path.xpath('.//div[@class="Normal"]/text()').extract()),

}

你们能帮我弄清楚为什么我会面临这个问题吗?谢谢

完成数据解决方案

解决方案:/text()xpath 中插入一秒之前

'ArticleContent':(main_path.xpath('.//div[@class="Normal"]//text()').extract()),

解释

路透社<p>在他们的文章内容中有额外的标签。虽然../text()只捕获同一节点/标签内的文本,但..//text()对子标签/子节点也是如此。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用scrapy框架抓取网页?

来自分类Dev

使用Scrapy从动态网页中抓取网址

来自分类Dev

通过多线程使用python scrapy抓取网页

来自分类Dev

无法使用 Scrapy 从网页加载和抓取数据

来自分类Dev

难以使用 Scrapy 从网页中抓取所需数据

来自分类Dev

使用scrapy抓取项目

来自分类Dev

使用scrapy抓取数据

来自分类Dev

使用BeautifulSoup从网页中抓取特定链接

来自分类Dev

Python + scrapy + 网页抓取:页面未被抓取

来自分类Dev

如何使用python使用scrapy将多个网页抓取的数据输出到csv文件中

来自分类Dev

使用Scrapy抓取iTunes图表

来自分类Dev

如何使用scrapy抓取歌曲

来自分类Dev

使用 Scrapy 抓取相关新闻

来自分类Dev

在不知道网页结构的情况下使用Scrapy抓取所有文本

来自分类Dev

如何使用scrapy在网页的起点和终点之间抓取数据

来自分类Dev

使用scrapy在Stack Overflow中进行网页抓取,但我无法获得该问题的投票

来自分类Dev

使用 Scrapy 抓取网页时获得一些空输出

来自分类Dev

特定网页的 Scrapy shell

来自分类Dev

如何使用scrapy登录网页

来自分类Dev

使用BeautifulSoup从网页的特定部分抓取所有图像

来自分类Dev

使用BeautifulSoup抓取网页

来自分类Dev

使用 BeautifulSoup 抓取网页

来自分类Dev

使用python3从网页中抓取特定表格(网页中有多个表格)

来自分类Dev

使用python-Scrapy抓取动态内容

来自分类Dev

使用SCRAPY和PYTHON从Javascript抓取数据

来自分类Dev

Python-使用Scrapy进行Web抓取

来自分类Dev

使用scrapy递归地抓取网站

来自分类Dev

如何使用scrapy在Python中抓取网址

来自分类Dev

如何使用python Scrapy抓取Factiva数据?

Related 相关文章

热门标签

归档