Cis*_*tin 3 robots.txt http http-headers web
看起来有两种主流的解决方案可以指示爬虫索引什么和不索引:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt。
使用前者有什么好处吗?
随着robots.txt你不能禁止文档的索引。
他们有不同的目的:
robots.txt可以禁止爬行(使用Disallow)X-Robots-Tag¹ 可以禁止索引(使用noindex)(并且都提供不同的附加功能,如链接到您的站点地图中robots.txt,禁止以下链接中X-Robots-Tag,等等。)
爬行意味着访问文档。索引意味着在索引中提供指向文档的链接(以及可能来自或关于文档的元数据)。在典型情况下,机器人在抓取文档后对其进行索引,但这不是必需的。
不允许抓取文档的机器人仍然可以为其编制索引(从未访问过它)。不允许为文档编制索引的机器人仍可能对其进行抓取。你不能同时禁止。
¹ 请注意,标题被称为X-Robots-Tag,而不是X-Robot-Tag。顺便说一下,元数据名称robots(对于 HTMLmeta元素)是 HTTP 标头的替代。