如何防止在搜索引擎中索引分段

tou*_*tpt 16 search-engine robots.txt nofollow web

我希望我的登台网站不被搜索引擎索引(谷歌为第一).

我听说Wordpress擅长这样做,但我想成为技术不可知论者.

robots.txt足够了吗?我们希望匿名访问,让客户无需登录即可查看其网站.

我必须在每个页面添加nofollow吗?

eyw*_*ywu 28

我通常反对将登台服务器暴露给公共网站,但如果这是您工作流程的最佳解决方案,那么您可以考虑以下几点:

最小的方法

  • 为登台服务器创建新域(例如example-stage.com)
  • 添加robots.txt => Disallow: /
  • 在Google和Bing网站站长工具中验证域名

最小的方法是确保你不会在任何地方都有重复内容的情况下拍摄自己的基础知识.通过注册一个单独的域,它是一个干净的划分给用户的阶段和什么不是.当您需要移动环境时,它也会更清洁,但这更具操作性.CNAME也可以使用,但请记住使用Google和Bing网站管理员工具注册每个CNAME.这样,您可以根据需要使用域删除工具.

建议方法

  • 在请求前面添加身份验证(HTTP或其他)
  • 如果不允许,请回复适当的响应代码(例如401 Unauthorized)
  • 以上基本方法中的其他所有内容

通过添加robots.txt,它可以防止搜索引擎访问和索引内容.但是,这并不意味着他们不会索引URL.如果搜索引擎知道给定的URL,则可以将其添加到搜索结果索引中.您有时会在搜索结果中看到这些内容.标题往往是没有描述的URL.为了防止这种情况发生,需要告知搜索引擎不要显示内容或URL.通过添加身份验证infront并且不响应200 OK状态代码,它是引擎的强烈信号,不会将这些URL添加到其索引中.根据我的经验,我从未见过搜索引擎索引中列出的401响应代码页.

首选方法

  • 将临时站点放在IP表后面(例如,只能从给定的IP范围访问)
  • 将meta或x-robots命令添加到每个页面,其值为NOINDEX,NOFOLLOW
  • 建议方法中的其他所有内容

通过将暂存站点置于IP过滤器后面,可确保只有您的客户端才能访问该站点.如果他们想要从其他计算机访问它,这可能是一个问题,有时候是一个维护问题,但如果你不想让你的登台环境编入索引,这是最好的方法.需要注意的是,您需要确保所有其他请求(例如搜索引擎和非客户端)不会提供任何回复.他们应该收到超时响应,从不提供200 OK.通过提供其他信息,它可能被误认为你不想要的隐形.

另外为了更加安全,我还要向每个页面添加一个元机器人或x-robots-header命令到NOINDEX,NOFOLLOW以防万一IP表因错误配置而失败或者身份验证失败...这很少见,但它发生了当有人因其他原因触摸配置时.就像robots.txt文件一样,如果它们被推送到制作阶段,你可以用这些页面级机器人命令自己拍摄.因此,只需确保您的开发/暂存环境处于完全分离的配置中.否则推出NOINDEX,NOFOLLOW或者Disallow: /对您的生产现场来说是灾难性的.