tkb*_*kbx 8 robots.txt web-crawler
如果我希望我的主网站在搜索引擎上,但没有任何子域,我是否应该将“禁止所有”robots.txt 放在子域的目录中?如果我这样做了,我的主域还能被抓取吗?
robots.txt 文件需要放在您的网络服务器的顶级目录中。如果您的主域和每个子域位于不同的虚拟主机上,那么您可以将其放在每个子域的顶级目录中,并包含类似的内容
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
robots.txt 所在的位置取决于您访问特定站点的方式。给定一个 URL,如
http://example.com/somewhere/index.html
Run Code Online (Sandbox Code Playgroud)
爬虫将丢弃域名右侧的所有内容并附加robots.txt
http://example.com/robots.txt
Run Code Online (Sandbox Code Playgroud)
因此,您需要将您的 robots.txt 放在 DocumentRoot 指令指向的目录中,例如.com 并禁止访问您需要的 /somewhere
User-agent: *
Disallow: /somewhere
Run Code Online (Sandbox Code Playgroud)
如果您有子域并且您以以下身份访问它们
http://subdomain.example.com
Run Code Online (Sandbox Code Playgroud)
并且您想禁止访问整个子域,那么您需要将 robots.txt 放在子域等的 DocumentRoot 指令指向的目录中。