如何在scrapy中提取准确的标签

MLSC

我编写了scrapy类,以便获得页面内容,如下所示:

#!/usr/bin/python
import html2text
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector


class StockSpider(BaseSpider):
    name = "stock_spider"
    allowed_domains = ["www.hamshahrionline.ir"]
    start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
#       sample = hxs.select("WhatShouldIputHere").extract()[AndHere]
        converter = html2text.HTML2Text()
        converter.ignore_links = True
        print converter.handle(sample)

我的主要问题是我发表评论的状态。

如何设置路径并提取参数?

您能指导我做些例子吗?

谢谢

ec

首先,您需要确定要从页面中获取哪些数据,定义一个Item类和一组Field然后,为了用数据填充项目字段,您需要xpathparse()Spider方法中使用表达式

这是一个从正文中检索所有段落的示例(我想是所有新闻):

from scrapy.item import Item, Field
from scrapy.spider import Spider
from scrapy.selector import Selector


class MyItem(Item):
    content = Field()


class StockSpider(Spider):
    name = "stock_spider"
    allowed_domains = ["www.hamshahrionline.ir"]
    start_urls = ["http://www.hamshahrionline.ir/details/261730/Health/publichealth"]

    def parse(self, response):
        sel = Selector(response)
        paragraphs = sel.xpath("//div[@class='newsBodyCont']/p/text()").extract()
        for p in paragraphs:
            item = MyItem()
            item['content'] = p
            yield item

请注意,Selector由于HtmlXPathSelector不推荐使用我使用的另外,由于相同的原因,我使用xpath()method而不是select()

另外,请注意,您最好Item在单独的python脚本中提取定义,以遵循Scrapy项目结构

希望能有所帮助。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在scrapy中提取标签值

来自分类Dev

如何在Scrapy中从响应中提取商品ID?

来自分类Dev

如何使用Scrapy从JavaScript中提取jsonObj

来自分类Dev

如何使用 C# 从网站中提取准确信息?

来自分类Dev

如何同时从多个文件中提取准确的字符串?

来自分类Dev

如何在scrapy中提取文本以及超链接文本?

来自分类Dev

如何从字符串中提取标签

来自分类Dev

如何使用Nokogiri从标签中提取文本

来自分类Dev

如何从此 JSON 中提取嵌套标签?

来自分类Dev

在Scrapy中提取图像

来自分类Dev

如何在Linux中从文本文件中提取任意标签并测量内容长度

来自分类Dev

如何在python中提取亚马逊网站这个标签中的可用性(库存)?

来自分类Dev

从标签中提取文本

来自分类Dev

如何在深度学习中提高准确性和验证准确性

来自分类Dev

从标签中提取多个标签

来自分类Dev

如何使用scrapy使用re()从javascript变量中提取数据?

来自分类Dev

如何从Scrapy选择器中提取原始HTML?

来自分类Dev

Scrapy,如何从<b>中提取s潜台词

来自分类Dev

如何通过xpath从scrapy的源代码中提取部分?

来自分类Dev

如何在Ruby中提取整数的符号?

来自分类Dev

如何在R中提取str()信息

来自分类Dev

如何在Jquery中提取属性?

来自分类Dev

如何在.gitmodule中提取子模块?

来自分类Dev

如何在Lisp中提取Mancala板

来自分类Dev

如何在Perl中提取部分行

来自分类Dev

如何在Matlab中提取表的列名

来自分类Dev

如何在sql中提取数据?

来自分类Dev

如何在文件python中提取文本

来自分类Dev

如何在Hive中提取小数部分