如何快速屏蔽 Googlebot？

Question

如何快速屏蔽 Googlebot？

谷歌机器人现在正在抓取我的网站，它正在杀死我的服务器。它每秒只能抓取一两页，但这些页面确实是 CPU 密集型的。我已经将这些 CPU 密集型文件添加到 robots.txt 文件中，但 googlebot 尚未检测到这些更改。我想在 apache.cong 级别阻止 google bot，以便我的网站现在可以恢复。我怎样才能做到这一点？这个 apoache 实例托管了几个 PHP 站点和一个 django 驱动的站点，所以我不能使用 .htaccess 文件。服务器正在运行 Ubuntu 10.04。

Answer 1

Vat*_*ine 6

我看到您目前正尝试在您的 robots.txt 中使用 glob-patters。

从网络机器人页面：

Note also that globbing and regular expression are not supported in either
the  User-agent or Disallow lines. The '*' in the User-agent field is a 
special value meaning "any robot". Specifically, you cannot have lines like 
"User-agent: *bot*",     "Disallow: /tmp/*" or "Disallow: *.gif".

Run Code Online (Sandbox Code Playgroud)

您要么需要按照 Arenstar 或 Tom O'Connor 的建议进行操作（即，使用 Apache ACL 阻止它们，在 IP 级别丢弃流量），或者可能需要通过 127.0.0.1 路由 IP 地址（即首先阻止他们建立 TCP 会话）。

从长远来看，考虑一下是否可以将所有 CPU 密集型页面放在一个公共前缀下，然后您就可以使用 robots.txt 指示爬虫远离它们。

归档时间：	15 年前
查看次数：	11599 次
最近记录：	12 年，1 月前