如何设置Robots.txt或Apache只在特定时间允许抓取工具？

FWIW Google不支持抓取延迟 - 那里指定的虚假值太多没有意义.如果您要调整Googlebot的抓取速度,可以在[Google网站站长工具](http://www.google.com/support/webmasters/bin/answer.py?hl=zh-CN&answer=48620)中执行此操作. (2认同)

Answer 2

Joh*_*ler 3

您无法在 robots.txt 文件中控制它。一些爬虫可能会支持类似的东西，但没有一个大型爬虫会支持（据我所知）。

在这种情况下，动态更改 robots.txt 文件也是一个坏主意。大多数爬虫都会将 robots.txt 文件缓存一段时间，并继续使用它，直到刷新缓存。如果他们在“正确”的时间缓存它，他们可能会正常爬行一整天。如果他们在“错误”的时间缓存它，他们将完全停止爬行（甚至可能从索引中删除已索引的 URL）。例如，Google 通常会将 robots.txt 文件缓存一天，这意味着 Googlebot 无法看到一天中的更改。

如果爬网对您的服务器造成过多负载，您有时可以调整各个爬网程序的爬网速率。例如，对于 Googlebot，您可以在Google 网站管理员工具中执行此操作。

此外，当爬网程序在高负载期间尝试爬网时，您始终可以只为它们提供503 HTTP 结果代码。这告诉爬网程序稍后再检查（如果您知道它们应该何时返回，您还可以指定重试后的 HTTP 标头）。虽然我会尽量避免严格按照一天中的时间执行此操作（这可能会阻止许多其他功能，例如站点地图、上下文广告或网站验证，并且通常会减慢抓取速度），但在特殊情况下，它可能会这样做是有意义的。从长远来看，我强烈建议仅当您的服务器负载确实太高而无法成功将内容返回给爬虫时才执行此操作。

归档时间：	14 年，9 月前
查看次数：	9294 次
最近记录：	9 年，9 月前