如何使用robots.txt禁止镜像站点(在子域上)?

Yug*_*dle 4 seo robots.txt cdn

我有一个网站说:

http://domain.com/
Run Code Online (Sandbox Code Playgroud)

镜像站点

http://cdn.domain.com/
Run Code Online (Sandbox Code Playgroud)

我不想cdn被编入索引.如何编写robots.txt规则以避免cdn被编入索引而不会打扰我目前的robots.txt排除.

我的礼物robots.txt不包括:

User-agent: *
Disallow: /abc.php
Run Code Online (Sandbox Code Playgroud)

如何避免cdn.domain.com被编入索引?

User-agent: *
Disallow: /abc.php
Run Code Online (Sandbox Code Playgroud)

Ora*_*ill 10

在根.htaccess文件中添加以下内容

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Amazon.CloudFront$
RewriteRule ^robots\.txt$ robots-cdn.txt
Run Code Online (Sandbox Code Playgroud)

然后创建一个单独的robots-cdn.txt:

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

当通过http://cdn.domain.com/robots.txt访问时,将返回robots-cdn.txt文件的内容...否则重写将不会启动,真正的robots.txt将启动.

这样,您可以自由地镜像具有预期行为的整个站点(包括.htaccess)文件

更新:

  • HTTP_USER_AGENT 是因为亚马逊在从任何位置查询它时使用它.
  • 我已经验证并且有效