如何使用 robots.txt 禁止仅对我的子域进行抓取？

Question

如果我希望我的主网站在搜索引擎上，但没有任何子域，我是否应该将“禁止所有”robots.txt 放在子域的目录中？如果我这样做了，我的主域还能被抓取吗？

Answer 1

robots.txt 文件需要放在您的网络服务器的顶级目录中。如果您的主域和每个子域位于不同的虚拟主机上，那么您可以将其放在每个子域的顶级目录中，并包含类似的内容

User-agent: *
Disallow: /

robots.txt 所在的位置取决于您访问特定站点的方式。给定一个 URL，如

 http://example.com/somewhere/index.html

爬虫将丢弃域名右侧的所有内容并附加robots.txt

http://example.com/robots.txt

因此，您需要将您的 robots.txt 放在 DocumentRoot 指令指向的目录中，例如.com 并禁止访问您需要的 /somewhere

User-agent: *
Disallow: /somewhere

如果您有子域并且您以以下身份访问它们

http://subdomain.example.com

并且您想禁止访问整个子域，那么您需要将 robots.txt 放在子域等的 DocumentRoot 指令指向的目录中。

Answer 2

一定要放到根目录下，不然找不到。