robots.txt - 排除包含"/ node /"的任何网址

Question

如何告诉爬虫/机器人不要索引任何具有/ node/pattern的URL？以下是第一天,但我注意到谷歌仍然索引了许多其中有/ node /的网址,例如www.mywebsite.com/node/123/32

禁止:/ node /

是否有任何声明没有索引任何具有/ node /的URL我应该编写如下内容:Disallow:/ node/*

更新:真正的问题是:Disallow:/ node/in robots.txt,Google已将此网址下的网页编入索引,例如www.mywebsite.com/node/123/32

/ node /不是物理目录,这就是drupal 6显示它的内容,我想这是我的问题,节点不是目录,只是drupal为内容生成的URL的一部分,我该如何处理？这会有用吗？

禁止:/*节点

谢谢

Answer 1

Disallow: /node/将禁止任何以/node/(在主持人之后)开头的网址.星号不是必需的.

因此它将阻止www.mysite.com/node/bar.html,但不会阻止www.mysite.com/foo/node/bar.html.

如果你想阻止任何包含的东西/node/,你必须写Disallow: */node/

另请注意,Googlebot可以将robots.txt缓存最多7天.因此,如果您今天对robots.txt进行了更改,可能需要在Googlebot更新robots.txt副本前一周.在此期间,它将使用其缓存副本.