Scrapy不会搜寻起始URL中包含的数据

user988544 发表于 Dev

用户名

我正在尝试使用scrapy爬行整个网站。根据scarpy的文档

start_urls-当未指定特定URL时，爬虫将开始从其爬网的URL列表。因此，下载的第一页将是此处列出的页面。随后的URL将根据起始URL中包含的数据连续生成。

因此，根据此定义，scrapy应该在下面提到的页面上的所有子URL上进行start_urls爬网，但它仅对我指定的URL进行爬网。我确实指定了Scrapy-抓取整个网站下提到的规则，但没有帮助。它只会抓取并输出我在start_urls中指定的页面。

这是我的代码片段：

class AcdivocaFirstSpider(scrapy.Spider):
    name = "example_sample"
    allowed_domains = ["example.org"]
    start_urls = ["http://www.example.org/site/id/home"]
    rules = rules = [Rule(SgmlLinkExtractor(), callback='parse_item', follow=True)]

    def parse(self, response):
        filename = response.url.split("/")[-1] #so eg it would name 'home'
        open(filename, 'wb').write(response.body)

这将产生一个带有提取的“首页”页面HTML数据的文件。我如何从首页开始递归检索整个网站？

任何帮助表示赞赏。谢谢你。

保罗·特姆布雷斯

2件事要改变：

使用规则，创建AcdivocaFirstSpider的子类scrapy.contrib.spiders.CrawlSpider，而不是scrapy.Spider

随后的URL将根据起始URL中包含的数据连续生成。

这个短语是令人误解的。scrapy.Spider本身对这些起始URL并没有做任何特别的事情：它将下载它们并将响应的正文传递给parse()。如果parse()实现了回调以产生进一步的请求，则可以，随后的URL将从这些URL的数据生成，但这不是自动的/自动的。

使用时scrapy.contrib.spiders.CrawlSpider，你需要不重写内置的parse()方法，即其中的规则进行检查的，并请求页面生成。因此，您需要重命名parse为parse_item（按规则引用）

请参阅文档中有关爬网规则的警告。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-14

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

Scrapy不会搜寻起始URL中包含的数据

Scrapy不会搜寻起始URL中包含的数据

Scrapy搜寻器将不会搜寻任何网页

使用scrapy搜寻动态网页以获取数据

使用BeautifulSoup搜寻网页中的URL

Scrapy Web搜寻器教程中的错误

Scrapy Web搜寻器教程中的错误

Scrapy Parser - 不会输出数据

运行scrapy搜寻器的最简单方法，因此它不会阻止脚本

汇总搜寻器中的请求列表中的数据

使用scrapy递归搜寻网站

使用scrapy递归搜寻网站

与.htaccess中的URL的起始名称相同的URL重写问题

如何在搜寻过程中为我的Scrapy Spider添加新请求

使用Scrapy但不包含Scraped项目从表中收集数据

使用Scrapy但不包含Scraped项目从表中收集数据

使用Scrapy爬网本地XML文件-起始URL本地文件地址

如果URL包含在数据中，则POST返回403

获取数据键值并在.html之前的URL中包含

如何缩短包含元数据的长 url，以在 javascript 中工作

Scrapy搜寻器无法搜寻或无法写入CSV文件？

如何根据URL在MVC中设置起始页/布局？

Web搜寻器不会打开页面中的所有链接

如何在Apache Flink中定义数据集的起始位置？

Vue.js：为什么我的数据不会显示在包含多种组件类型的列表中？

在Django中搜寻表格

一个自包含的python文件中的网络搜寻器

搜寻论坛：无法搜寻其中包含表格的帖子

搜寻论坛：无法搜寻其中包含表格的帖子

Scrapy递归链接搜寻器

使用Scrapy搜寻相对网址[Python]