如何使用 robots.txt 禁止仅对我的子域进行抓取?

tkb*_*kbx 8 robots.txt web-crawler

如果我希望我的主网站在搜索引擎上,但没有任何子域,我是否应该将“禁止所有”robots.txt 放在子域的目录中?如果我这样做了,我的主域还能被抓取吗?

use*_*517 9

robots.txt 文件需要放在您的网络服务器的顶级目录中。如果您的主域和每个子域位于不同的虚拟主机上,那么您可以将其放在每个子域的顶级目录中,并包含类似的内容

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

robots.txt 所在的位置取决于您访问特定站点的方式。给定一个 URL,如

 http://example.com/somewhere/index.html
Run Code Online (Sandbox Code Playgroud)

爬虫将丢弃域名右侧的所有内容并附加robots.txt

http://example.com/robots.txt  
Run Code Online (Sandbox Code Playgroud)

因此,您需要将您的 robots.txt 放在 DocumentRoot 指令指向的目录中,例如.com 并禁止访问您需要的 /somewhere

User-agent: *
Disallow: /somewhere
Run Code Online (Sandbox Code Playgroud)

如果您有子域并且您以以下身份访问它们

http://subdomain.example.com
Run Code Online (Sandbox Code Playgroud)

并且您想禁止访问整个子域,那么您需要将 robots.txt 放在子域等的 DocumentRoot 指令指向的目录中。


Dav*_*vid 2

一定要放到根目录下,不然找不到。