谷歌机器人现在正在抓取我的网站,它正在杀死我的服务器。它每秒只能抓取一两页,但这些页面确实是 CPU 密集型的。我已经将这些 CPU 密集型文件添加到 robots.txt 文件中,但 googlebot 尚未检测到这些更改。我想在 apache.cong 级别阻止 google bot,以便我的网站现在可以恢复。我怎样才能做到这一点?这个 apoache 实例托管了几个 PHP 站点和一个 django 驱动的站点,所以我不能使用 .htaccess 文件。服务器正在运行 Ubuntu 10.04。
我看到您目前正尝试在您的 robots.txt 中使用 glob-patters。
从网络机器人页面:
Note also that globbing and regular expression are not supported in either
the User-agent or Disallow lines. The '*' in the User-agent field is a
special value meaning "any robot". Specifically, you cannot have lines like
"User-agent: *bot*", "Disallow: /tmp/*" or "Disallow: *.gif".
Run Code Online (Sandbox Code Playgroud)
您要么需要按照 Arenstar 或 Tom O'Connor 的建议进行操作(即,使用 Apache ACL 阻止它们,在 IP 级别丢弃流量),或者可能需要通过 127.0.0.1 路由 IP 地址(即首先阻止他们建立 TCP 会话)。
从长远来看,考虑一下是否可以将所有 CPU 密集型页面放在一个公共前缀下,然后您就可以使用 robots.txt 指示爬虫远离它们。
归档时间: |
|
查看次数: |
11599 次 |
最近记录: |