如何限制网站被编入索引

Ili*_*eev 7 indexing .htaccess search robots.txt

我知道这个问题被多次询问,但我希望更具体.

我有一个开发域并将该站点移动到子文件夹.让我们说:

http://www.example.com/
Run Code Online (Sandbox Code Playgroud)

至:

http://www.example.com/backup
Run Code Online (Sandbox Code Playgroud)

所以我希望子文件夹根本不被搜索引擎索引.我把robots.txt与子文件夹中的以下内容放在一起(我可以将它放在子文件夹中,或者它必须始终在根目录下,因为我希望搜索引擎可以看到根目录中的内容):

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

也许我需要替换它并在根中放入以下内容:

User-agent: *
Disallow: /backup
Run Code Online (Sandbox Code Playgroud)

另一件事是,我在某处读到某些机器人不尊重robots.txt文件,所以只需将.htaccess文件放在/ backup文件夹中就可以了吗?

Order deny,allow
Deny from all
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

jmo*_*253 13

这样可以防止对该目录编制索引:

User-agent: *
Disallow: /backup/
Run Code Online (Sandbox Code Playgroud)

此外,您的robots.txt文件必须放在域的根目录中,因此在这种情况下,该文件将放置在您可以在浏览器中访问它的位置,方法是访问http://example.com/robots.txt

另外,您可能需要考虑为开发站点设置子域,例如http://dev.example.com.这样做可以让您将开发人员与生产环境完全分开,并确保您的环境更加匹配.

例如,JavaScript文件,CSS,图像或其他资源的任何绝对路径在开发到生产时可能无法正常工作,这可能会导致一些问题.

有关如何配置此文件的更多信息,请参阅robotstxt.org站点.祝好运!

作为最后和最后一点,Google网站站长工具有一个部分,您可以在其中查看robots.txt文件阻止的内容:

要查看Google已被阻止抓取哪些网址,请访问网站站长工具的"健康"部分的"阻止的网址"页面.

我强烈建议您使用此工具,因为错误配置的robots.txt文件可能会对您网站的效果产生重大影响.