在搜索有关的具体信息时robots.txt
,我偶然发现了有关此主题的Yandex帮助页面.它建议我可以使用该Host
指令告诉爬虫我的首选镜像域:
User-Agent: *
Disallow: /dir/
Host: www.myhost.com
Run Code Online (Sandbox Code Playgroud)
此外,维基百科文章指出谷歌也理解该Host
指令,但没有太多(即没有)信息.
在robotstxt.org,我没有找到任何内容Host
(或Crawl-delay
维基百科上所述).
Host
指令?robots.txt
特定的资源?uno*_*nor 12
无法识别的标头会被忽略.
他们称之为"标题",但这个术语在任何地方都没有定义.但是,因为它在左右格式节的提及,并在同一段落User-agent
和Disallow
,似乎是安全的假设,"头"是指"字段名".
所以是的,您可以使用Host
或任何其他字段名称.
但请记住:由于robots.txt项目未指定它们,因此您无法确定不同的解析器是否以相同的方式支持此字段.所以你必须手动检查每个支持解析器.
归档时间: |
|
查看次数: |
5342 次 |
最近记录: |