我可以在robots.txt中使用"主机"指令吗?

dak*_*kab 8 seo robots.txt

在搜索有关的具体信息时robots.txt,我偶然发现了有关此主题的Yandex帮助页面.它建议我可以使用该Host指令告诉爬虫我的首选镜像域:

User-Agent: *
Disallow: /dir/
Host: www.myhost.com
Run Code Online (Sandbox Code Playgroud)

此外,维基百科文章指出谷歌也理解该Host指令,但没有太多(即没有)信息.

robotstxt.org,我没有找到任何内容Host(或Crawl-delay维基百科上所述).

  1. 是否鼓励使用该Host指令?
  2. Google是否有针对此robots.txt特定的资源?
  3. 如何与其他抓取工具兼容?

uno*_*nor 12

原来的robots.txt规范说:

无法识别的标头会被忽略.

他们称之为"标题",但这个术语在任何地方都没有定义.但是,因为它在左右格式节的提及,并在同一段落User-agentDisallow,似乎是安全的假设,"头"是指"字段名".

所以是的,您可以使用Host任何其他字段名称.

  • 支持这些字段的Robots.txt解析器,支持它们.
  • 不支持此类字段的Robots.txt解析器必须忽略它们.

但请记住:由于robots.txt项目未指定它们,因此您无法确定不同的解析器是否以相同的方式支持此字段.所以你必须手动检查每个支持解析器.

  • @dakab:是的,原始 robots.txt 规范中未指定 `Host` 字段。 (2认同)