使用 X-Robot-Tag 代替 robots.txt 有什么优势吗?

Cis*_*tin 3 robots.txt http http-headers web

看起来有两种主流的解决方案可以指示爬虫索引什么和不索引:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt。

使用前者有什么好处吗?

uno*_*nor 6

随着robots.txt你不能禁止文档的索引。

他们有不同的目的:

  • robots.txt可以禁止爬行(使用Disallow
  • X-Robots-Tag¹ 可以禁止索引(使用noindex

(并且都提供不同的附加功能,如链接到您的站点地图robots.txt禁止以下链接X-Robots-Tag,等等。)

爬行意味着访问文档。索引意味着在索引中提供指向文档的链接(以及可能来自或关于文档的元数据)。在典型情况下,机器人在抓取文档后对其进行索引,但这不是必需的。

不允许抓取文档的机器人仍然可以为其编制索引(从未访问过它)。不允许为文档编制索引的机器人仍可能对其进行抓取。你不能同时禁止

¹ 请注意,标题被称为X-Robots-Tag,而不是X-Robot-Tag。顺便说一下,元数据名称robots(对于 HTMLmeta元素)是 HTTP 标头的替代。