如何阻止机器人抓取或索引 Angular 应用程序

Question

我想发布一个用于测试目的的 Angular 应用程序，但我想确保该网站不会被机器人抓取或编入索引。

我假设（可能会很远！）我会<meta>简单地在我的 index.html 页面上添加我的标签，并在我的根目录中添加一个 robots.txt 文件？

这些是我的元标签：

<meta name="robots" content="noindex,nofollow">
<meta name="googlebot" content="noindex" />

这是我的 robots.txt 文件的内容：

User-agent: *
Disallow: /

先感谢您！

Answer 1

使用您指定的 robots.txt 文件就足以防止您的网站被遵循机器人排除标准的机器人编制索引。使用此 robots.txt，您无需指定元标头，因为机器人会首先读取 robots.txt，并且不会解析网站的 HTML 来读取元标记。

当您的 robots.txt 文件通常允许为该页面建立索引，但您希望在页面级别排除它时，请使用元标记，这样可以进行更精细的选择。

请注意，一些不常见的爬虫可能不遵守排除标准。如果您确实想限制对测试站点的访问，则应考虑仅在身份验证后才可访问或仅允许访问某些 IP 地址。