识别搜寻器

费尔南多·彭特亚多

我有一个网站,该网站统计了访问该特定页面的人数,但是我不想统计搜索爬虫何时访问它们。java有什么方法可以识别它是爬虫还是真实用户?使用Java7和tomcat

谢谢

Dzianis Yafimau

正如Henry所提到的,您必须检查User-Agent每个请求的标头。

您可以使用以下蜘蛛列表:http : //www.useragentstring.com/pages/Crawlerlist/

另外,您可以检查模式是否包含“ bot”,“ crawler”等。还请注意,某些bot可以使用常规用户user-agent字符串来屏蔽自身。

此检查必须非常快,因此您需要为搜寻器名称创建缓存。或者,您可以使用Google Analytics(分析),我认为这不包括网络爬虫。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章