Ric*_*ard 5 robots.txt bots cpu-usage
由于机器人淹没我的网站,我的CPU使用率突然超过400%,我创建了一个robots.txt,如下所示,并将文件放在我的根目录中,例如"www.example.com/":
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
现在谷歌尊重这个文件,我的日志文件中没有更多的出现.然而,BingBot和BaiduSpider仍会显示在我的日志中(并且非常丰富).
由于我的CPU使用量大幅增加而且带宽和我的托管服务提供商即将暂停我的帐户,我首先删除了所有页面(如果有一个讨厌的脚本),上传的干净页面,通过IP地址阻止所有机器人.htaccess然后创建了robots.txt文件.
我到处搜索确认我做了正确的步骤(还没有尝试过.htaccess中的"ReWrite"选项).
任何人都可以确认我所做的应该做的工作吗?(自从我开始这项冒险以来,我的CPU使用率在6天内降至120%,但至少阻止IP地址应该会将CPU使用率降低到通常的5-10%).
如果这些是来自 Bingbot 和 Baispider 的合法蜘蛛,那么它们都应该尊重您给定的 robots.txt 文件。但是,如果这些文件之前已被索引,那么他们可能需要一些时间才能获取并开始对其进行操作 - 这可能就是这种情况。
它不适用于本例,但应该注意的是,Baiduspider 对 robots.txt 标准的解释在某些方面与其他主流机器人(即 Googlebot)略有不同。例如,虽然标准将Disallow:记录上的 URL 路径简单地定义为前缀,但 Baispider 将仅匹配整个目录/路径名。http://example.com/private/当给定指令时,Googlebot 会匹配 URL Disallow: /priv,而 Baispider 则不会。
参考: http:
//www.baidu.com/search/robots_english.html
| 归档时间: |
|
| 查看次数: |
2512 次 |
| 最近记录: |