谷歌看到了它不应该看到的东西.为什么？

Question

出于一些神秘的原因,谷歌已将这两个地址编入索引,从而导致同一页面:

/something/some-text-1055.html

和

/index.php?pg=something&id=1055

(简短的通知 - 该网站自发布以来就有了友好的网址,我不知道谷歌如何找到"index.php？"网址 - 只有内容管理系统才有"不友好"的网址,这是受密码限制的)

我该怎么做才能解决这个问题？(我有大约1000页双重索引.)有人告诉我使用"disallow:index.php？" 在robots.txt文件中.对还是错？还有其他建议吗？

Answer 1

随着谷歌机器人索引网站内容的普遍性和快速性,你会感到惊讶.这与许多CMS系统相结合,创建了非预期的页面/链接,这使得很可能在某些时候暴露出这些链接是最可能的罪魁祸首.您的管理区域也可能不像您想象的那么安全,谷歌机器人通过这种方式.

表现良好,谷歌推荐,这里要做的事情是

如果可能,请从查询字符串样式URL创建301重定向到您的规范样式URL.那就是你说"嘿那里,web bot /浏览器,以前在这个URL上的内容现在在这个其他URL"
阻止robots.txt中的查询字符串内容.这就像问蜘蛛或其他自动程序 "嘿,请不要看这些东西.这些不是你要找的网址"
Google显然允许您现在通过页面顶部的<link />标记指定规范网址.考虑添加这些.

至于做好事情是否是"正确"做的事情:谷歌排名......谁知道.只有"谷歌"知道他们的算法现在如何运作,并且将来会有效,而谷歌,我的意思是一群工程师和高管在搜索应该如何运作方面存在相互冲突的目标.

Answer 2

Google现在提供了一种指定网页规范网址的方法.您可以在HTML中使用以下代码告诉Google您的规范网址:

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />

您可以在关于该主题的博客文章中详细了解Google上的规范网址,例如:http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html 根据博文,Ask.com, Microsoft Live Search和Yahoo! 都支持规范标签.