当robots.txt告诉我们是否不知道URL属于哪个文件夹时,我们如何知道可以对哪些URL进行爬网?

德瓦布

我将编写一个Web爬虫代码,但是在我想知道将要进行什么爬虫之前。

告诉我我是否错,但是在robots.txt中,网站指出的不是文件夹,而不是可以和不能抓取的URL,那么我们如何知道URL属于哪个文件夹?

slhck

robots.txt文件不包含目录前缀例如,如果您有一个robots.txt排除目录/foo,则/foo/bar.html不得对其进行爬网。

对于您要抓取的任何URL,您必须检查其路径是否与robots文件中的指令之一匹配。

有关更多信息和示例,请参阅Google文档

路径值用作确定规则是否适用于站点上特定URL的基础。除通配符外,该路径用于匹配URL的开头(以及以相同路径开头的任何有效URL)。

请注意,URL不必指示服务器上的实际目录。/download.php?what=thestuff在功能上可以等同于/download/thestuff并指向相同的资源。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

Related 相关文章

热门标签

归档