当robots.txt告诉我们是否不知道URL属于哪个文件夹时，我们如何知道可以对哪些URL进行爬网？

debugcn 发表于 Dev

德瓦布

我将编写一个Web爬虫代码，但是在我想知道将要进行什么爬虫之前。

告诉我我是否错，但是在robots.txt中，网站指出的不是文件夹，而不是可以和不能抓取的URL，那么我们如何知道URL属于哪个文件夹？

slhck

该robots.txt文件不包含目录前缀。例如，如果您有一个robots.txt排除目录/foo，则/foo/bar.html不得对其进行爬网。

对于您要抓取的任何URL，您必须检查其路径是否与robots文件中的指令之一匹配。

有关更多信息和示例，请参阅Google文档：

路径值用作确定规则是否适用于站点上特定URL的基础。除通配符外，该路径用于匹配URL的开头（以及以相同路径开头的任何有效URL）。

请注意，URL不必指示服务器上的实际目录。/download.php?what=thestuff在功能上可以等同于/download/thestuff并指向相同的资源。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-17

0条评论

登录后参与评论

Related 相关文章