Nutch 检索过多的重复图像

阿里纳兹

我正在尝试使用 Nutch 检索图像。该插件只是搜索所需的图像并检索它们的 url。我最后得到的包含太多重复的网址。它检索了 4.3 万个网址,其中 3.9 万个是重复的。这是正常的还是我写的代码中可能有一些错误(我认为不是这种情况),或者其他明智的 Nutch 本身的一些问题?

豪尔赫·路易斯

例如,可能多次引用相同的图像?,在这种情况下,您的结果可能是完全正常的,我想在给定/已知的一组 URL 上运行测试示例可以为您提供更好的答案,限制您的抓取只有种子文件上的 URL 运行测试并检查正在抓取哪些图像。您的爬网大小是多少?您是在获取已获取的页面还是专注于尚未访问的页面?您是否忽略了图标之类的小图像?

请记住,通常在一个网站上,很多图像资产会被一遍又一遍地重复使用,特别是如果网站不是

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章