搜索

搜索

如何在scrapy中提取准确的标签

MLSC 发表于 Dev

21

MLSC

我编写了scrapy类，以便获得页面内容，如下所示：

#!/usr/bin/python
import html2text
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector


class StockSpider(BaseSpider):
    name = "stock_spider"
    allowed_domains = ["www.hamshahrionline.ir"]
    start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
#       sample = hxs.select("WhatShouldIputHere").extract()[AndHere]
        converter = html2text.HTML2Text()
        converter.ignore_links = True
        print converter.handle(sample)

我的主要问题是我发表评论的状态。

如何设置路径并提取参数？

您能指导我做些例子吗？

谢谢

ec

首先，您需要确定要从页面中获取哪些数据，定义一个Item类和一组Field。然后，为了用数据填充项目字段，您需要xpath在parse()Spider方法中使用表达式。

这是一个从正文中检索所有段落的示例（我想是所有新闻）：

from scrapy.item import Item, Field
from scrapy.spider import Spider
from scrapy.selector import Selector


class MyItem(Item):
    content = Field()


class StockSpider(Spider):
    name = "stock_spider"
    allowed_domains = ["www.hamshahrionline.ir"]
    start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]

    def parse(self, response):
        sel = Selector(response)
        paragraphs = sel.xpath("//div[@class='newsBodyCont']/p/text()").extract()
        for p in paragraphs:
            item = MyItem()
            item['content'] = p
            yield item

请注意，Selector由于HtmlXPathSelector不推荐使用我使用的类。另外，由于相同的原因，我使用xpath()method而不是select()。

另外，请注意，您最好Item在单独的python脚本中提取定义，以遵循Scrapy项目结构。

希望能有所帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-9

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

在scrapy中提取标签值

来自分类Dev

如何在Scrapy中从响应中提取商品ID？

来自分类Dev

如何使用Scrapy从JavaScript中提取jsonObj

来自分类Dev

如何使用 C# 从网站中提取准确信息？

来自分类Dev

如何同时从多个文件中提取准确的字符串？

来自分类Dev

如何在scrapy中提取文本以及超链接文本？

来自分类Dev

如何从字符串中提取标签

来自分类Dev

如何使用Nokogiri从标签中提取文本

来自分类Dev

如何从此 JSON 中提取嵌套标签？

来自分类Dev

在Scrapy中提取图像

来自分类Dev

如何在Linux中从文本文件中提取任意标签并测量内容长度

来自分类Dev

如何在python中提取亚马逊网站这个标签中的可用性（库存）？

来自分类Dev

从标签中提取文本

来自分类Dev

如何在深度学习中提高准确性和验证准确性

来自分类Dev

从标签中提取多个标签

来自分类Dev

如何使用scrapy使用re（）从javascript变量中提取数据？

来自分类Dev

如何从Scrapy选择器中提取原始HTML？

来自分类Dev

Scrapy，如何从<b>中提取s潜台词

来自分类Dev

如何通过xpath从scrapy的源代码中提取部分？

来自分类Dev

如何在Ruby中提取整数的符号？

来自分类Dev

如何在R中提取str（）信息

来自分类Dev

如何在Jquery中提取属性？

来自分类Dev

如何在.gitmodule中提取子模块？

来自分类Dev

如何在Lisp中提取Mancala板

来自分类Dev

如何在Perl中提取部分行

来自分类Dev

如何在Matlab中提取表的列名

来自分类Dev

如何在sql中提取数据？

来自分类Dev

如何在文件python中提取文本

来自分类Dev

如何在Hive中提取小数部分

Related 相关文章

文章

热门标签

归档