我通过我的网站进行了IP扫描,我的apache错误日志显示了它们,然后我在这里打开了一个问题:Apache错误日志中出现了错误
现在,在阻止了该操作之后,一个新IP正在访问我的站点(与以前IP相同的目录)。该目录不存在,并且所生成的所有内容都是随机的。
问题:
新的IP访问是66.249.74.73,当我在此处看到IP信息时:http://www.infobyip.com/ip-66.249.74.73.html,它表明它是Google BOT。现在,我很困惑。我应该阻止吗?
如果我阻止了这些IP,而新的IP又在做同样的事情,是否应该继续这样阻止IP?没有永久解决方案吗?
我在Ubuntu 15.10中使用Apache
更新:现在,它可以成功进入我的网站并对其进行爬网(我尚未在任何地方对我的网站建立索引),只需构建它即可。
[Fri Nov 20 18:36:31.026761 2015] [core:info] [pid 19594] [client 66.249.74.73:57119] AH00128: File does not exist: /var/www/html/robots.txt
[Fri Nov 20 18:36:31.446036 2015] [core:info] [pid 19595] [client 66.249.74.69:63983] AH00128: File does not exist: /var/www/html/company/v/19175398/\xce\xe4\xba\xba\xb5\xc2\xc0\xfb\xd4\xb4\xc3\xb3\xd2\xd7\xd3\xd0\xcf\xde\xb9\xab\xcb\xbe
[Fri Nov 20 18:36:32.228918 2015] [core:info] [pid 19595] [client 66.249.74.69:63983] AH00128: File does not exist: /var/www/html/company/v/5146022/\xd5\xf2\xbd\xad\xca\xd0\xb5\xa4\xcd\xbd\xc7\xf8\xb9\xe2\xc3\xf7\xb8\xa8\xd6\xfa\xb2\xc4\xc1\xcf\xb3\xa7
我已经在SO中提出了一个问题,但是IP一直在生成,并且我不知道如何阻止所有生成的IP。(是将每个人手动添加到黑名单中的唯一方法吗?)
所有爬虫程序漫游器都会遍历/robots.txt
文件。创建具有以下内容的文件:
User-agent: *
Disallow: /
而且没有任何一个漫游器会进一步抓取您的网站。
您可以robots.txt
在此处了解更多信息。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句