Scrapy不会搜寻起始URL中包含的数据

用户名

我正在尝试使用scrapy爬行整个网站。根据scarpy的文档

start_urls-当未指定特定URL时,爬虫将开始从其爬网的URL列表。因此,下载的第一页将是此处列出的页面。随后的URL将根据起始URL中包含的数据连续生成。

因此,根据此定义,scrapy应该在下面提到的页面上的所有子URL上进行start_urls爬网,但它仅对我指定的URL进行爬网。我确实指定了Scrapy-抓取整个网站下提到的规则,但没有帮助。它只会抓取并输出我在start_urls中指定的页面。

这是我的代码片段:

class AcdivocaFirstSpider(scrapy.Spider):
    name = "example_sample"
    allowed_domains = ["example.org"]
    start_urls = ["http://www.example.org/site/id/home"]
    rules = rules = [Rule(SgmlLinkExtractor(), callback='parse_item', follow=True)]

    def parse(self, response):
        filename = response.url.split("/")[-1] #so eg it would name 'home'
        open(filename, 'wb').write(response.body)

这将产生一个带有提取的“首页”页面HTML数据的文件。我如何从首页开始递归检索整个网站?

任何帮助表示赞赏。谢谢你。

保罗·特姆布雷斯

2件事要改变:

  • 使用规则,创建AcdivocaFirstSpider的子类scrapy.contrib.spiders.CrawlSpider,而不是scrapy.Spider

随后的URL将根据起始URL中包含的数据连续生成。

这个短语是令人误解的。scrapy.Spider本身对这些起始URL并没有做任何特别的事情:它将下载它们并将响应的正文传递给parse()如果parse()实现回调以产生进一步的请求,则可以,随后的URL将从这些URL的数据生成,但这不是自动的/自动的。

  • 使用时scrapy.contrib.spiders.CrawlSpider,你需要重写内置的parse()方法,即其中的规则进行检查的,并请求页面生成。因此,您需要重命名parseparse_item(按规则引用)

请参阅文档中有关爬网规则的警告。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Scrapy搜寻器将不会搜寻任何网页

来自分类Dev

使用scrapy搜寻动态网页以获取数据

来自分类Dev

使用BeautifulSoup搜寻网页中的URL

来自分类Dev

Scrapy Web搜寻器教程中的错误

来自分类Dev

Scrapy Web搜寻器教程中的错误

来自分类Dev

Scrapy Parser - 不会输出数据

来自分类Dev

运行scrapy搜寻器的最简单方法,因此它不会阻止脚本

来自分类Dev

汇总搜寻器中的请求列表中的数据

来自分类Dev

使用scrapy递归搜寻网站

来自分类Dev

使用scrapy递归搜寻网站

来自分类Dev

与.htaccess中的URL的起始名称相同的URL重写问题

来自分类Dev

如何在搜寻过程中为我的Scrapy Spider添加新请求

来自分类Dev

使用Scrapy但不包含Scraped项目从表中收集数据

来自分类Dev

使用Scrapy但不包含Scraped项目从表中收集数据

来自分类Dev

使用Scrapy爬网本地XML文件-起始URL本地文件地址

来自分类Dev

如果URL包含在数据中,则POST返回403

来自分类Dev

获取数据键值并在.html之前的URL中包含

来自分类Dev

如何缩短包含元数据的长 url,以在 javascript 中工作

来自分类Dev

Scrapy搜寻器无法搜寻或无法写入CSV文件?

来自分类Dev

如何根据URL在MVC中设置起始页/布局?

来自分类Dev

Web搜寻器不会打开页面中的所有链接

来自分类Dev

如何在Apache Flink中定义数据集的起始位置?

来自分类Dev

Vue.js:为什么我的数据不会显示在包含多种组件类型的列表中?

来自分类Dev

在Django中搜寻表格

来自分类Dev

一个自包含的python文件中的网络搜寻器

来自分类Dev

搜寻论坛:无法搜寻其中包含表格的帖子

来自分类Dev

搜寻论坛:无法搜寻其中包含表格的帖子

来自分类Dev

Scrapy递归链接搜寻器

来自分类Dev

使用Scrapy搜寻相对网址[Python]

Related 相关文章

  1. 1

    Scrapy搜寻器将不会搜寻任何网页

  2. 2

    使用scrapy搜寻动态网页以获取数据

  3. 3

    使用BeautifulSoup搜寻网页中的URL

  4. 4

    Scrapy Web搜寻器教程中的错误

  5. 5

    Scrapy Web搜寻器教程中的错误

  6. 6

    Scrapy Parser - 不会输出数据

  7. 7

    运行scrapy搜寻器的最简单方法,因此它不会阻止脚本

  8. 8

    汇总搜寻器中的请求列表中的数据

  9. 9

    使用scrapy递归搜寻网站

  10. 10

    使用scrapy递归搜寻网站

  11. 11

    与.htaccess中的URL的起始名称相同的URL重写问题

  12. 12

    如何在搜寻过程中为我的Scrapy Spider添加新请求

  13. 13

    使用Scrapy但不包含Scraped项目从表中收集数据

  14. 14

    使用Scrapy但不包含Scraped项目从表中收集数据

  15. 15

    使用Scrapy爬网本地XML文件-起始URL本地文件地址

  16. 16

    如果URL包含在数据中,则POST返回403

  17. 17

    获取数据键值并在.html之前的URL中包含

  18. 18

    如何缩短包含元数据的长 url,以在 javascript 中工作

  19. 19

    Scrapy搜寻器无法搜寻或无法写入CSV文件?

  20. 20

    如何根据URL在MVC中设置起始页/布局?

  21. 21

    Web搜寻器不会打开页面中的所有链接

  22. 22

    如何在Apache Flink中定义数据集的起始位置?

  23. 23

    Vue.js:为什么我的数据不会显示在包含多种组件类型的列表中?

  24. 24

    在Django中搜寻表格

  25. 25

    一个自包含的python文件中的网络搜寻器

  26. 26

    搜寻论坛:无法搜寻其中包含表格的帖子

  27. 27

    搜寻论坛:无法搜寻其中包含表格的帖子

  28. 28

    Scrapy递归链接搜寻器

  29. 29

    使用Scrapy搜寻相对网址[Python]

热门标签

归档