Ili*_*eev 7 indexing .htaccess search robots.txt
我知道这个问题被多次询问,但我希望更具体.
我有一个开发域并将该站点移动到子文件夹.让我们说:
http://www.example.com/
Run Code Online (Sandbox Code Playgroud)
至:
http://www.example.com/backup
Run Code Online (Sandbox Code Playgroud)
所以我希望子文件夹根本不被搜索引擎索引.我把robots.txt与子文件夹中的以下内容放在一起(我可以将它放在子文件夹中,或者它必须始终在根目录下,因为我希望搜索引擎可以看到根目录中的内容):
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
也许我需要替换它并在根中放入以下内容:
User-agent: *
Disallow: /backup
Run Code Online (Sandbox Code Playgroud)
另一件事是,我在某处读到某些机器人不尊重robots.txt文件,所以只需将.htaccess文件放在/ backup文件夹中就可以了吗?
Order deny,allow
Deny from all
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
jmo*_*253 13
这样可以防止对该目录编制索引:
User-agent: *
Disallow: /backup/
Run Code Online (Sandbox Code Playgroud)
此外,您的robots.txt文件必须放在域的根目录中,因此在这种情况下,该文件将放置在您可以在浏览器中访问它的位置,方法是访问http://example.com/robots.txt
另外,您可能需要考虑为开发站点设置子域,例如http://dev.example.com.这样做可以让您将开发人员与生产环境完全分开,并确保您的环境更加匹配.
例如,JavaScript文件,CSS,图像或其他资源的任何绝对路径在开发到生产时可能无法正常工作,这可能会导致一些问题.
有关如何配置此文件的更多信息,请参阅robotstxt.org站点.祝好运!
作为最后和最后一点,Google网站站长工具有一个部分,您可以在其中查看robots.txt文件阻止的内容:
要查看Google已被阻止抓取哪些网址,请访问网站站长工具的"健康"部分的"阻止的网址"页面.
我强烈建议您使用此工具,因为错误配置的robots.txt文件可能会对您网站的效果产生重大影响.