BingBot和BaiduSpider不尊重robots.txt

Question

BingBot和BaiduSpider不尊重robots.txt

由于机器人淹没我的网站,我的CPU使用率突然超过400%,我创建了一个robots.txt,如下所示,并将文件放在我的根目录中,例如"www.example.com/":

User-agent: *
Disallow: /

Run Code Online (Sandbox Code Playgroud)

现在谷歌尊重这个文件,我的日志文件中没有更多的出现.然而,BingBot和BaiduSpider仍会显示在我的日志中(并且非常丰富).

由于我的CPU使用量大幅增加而且带宽和我的托管服务提供商即将暂停我的帐户,我首先删除了所有页面(如果有一个讨厌的脚本),上传的干净页面,通过IP地址阻止所有机器人.htaccess然后创建了robots.txt文件.

我到处搜索确认我做了正确的步骤(还没有尝试过.htaccess中的"ReWrite"选项).

任何人都可以确认我所做的应该做的工作吗？(自从我开始这项冒险以来,我的CPU使用率在6天内降至120%,但至少阻止IP地址应该会将CPU使用率降低到通常的5-10%).

Answer 1

MrW*_*ite 3

如果这些是来自 Bingbot 和 Baispider 的合法蜘蛛，那么它们都应该尊重您给定的 robots.txt 文件。但是，如果这些文件之前已被索引，那么他们可能需要一些时间才能获取并开始对其进行操作 - 这可能就是这种情况。

它不适用于本例，但应该注意的是，Baiduspider 对 robots.txt 标准的解释在某些方面与其他主流机器人（即 Googlebot）略有不同。例如，虽然标准将Disallow:记录上的 URL 路径简单地定义为前缀，但 Baispider 将仅匹配整个目录/路径名。http://example.com/private/当给定指令时，Googlebot 会匹配 URL Disallow: /priv，而 Baispider 则不会。

参考： http:
//www.baidu.com/search/robots_english.html

归档时间：	13 年，4 月前
查看次数：	2512 次
最近记录：	10 年，3 月前