bgc*_*ode 7 seo web-crawler web
我正在建立一个网站,对互联网上数十万个其他网站的隐私政策进行审查.它的初始内容基于我运行CommonCrawl 50亿页面Web转储并使用脚本分析所有隐私策略,以识别某些特征(例如"销售您的个人信息").
搜索引擎往往只在任何给定页面上抓取大约100个链接.这种宽松的限制对于抑制垃圾邮件和保存排名是必要的.
我想知道什么是一种聪明的方法来创建一个导航网络,不会留下任何页面孤儿,但仍然会避免他们所说的SEO惩罚.我有一些想法:
维基百科和StackOverflow显然通过允许用户对所有页面进行分类或标记来很好地解决了这个问题.在我的情况下,我没有那么奢侈,但我想找到最好的选择.
这个问题的核心是Google如何响应不同的导航结构.是否会以程序化/无意义的方式惩罚那些创建网页的人?或者只要一切都通过链接连接,它不关心吗?
Google PageRank 不会因为页面上的链接超过 100 个而惩罚您。但是,每个超过特定阈值的链接在 PageRank 算法中的价值/重要性都会降低。
引用 SEOMOZ 和 Matt Cutts 的话:
你会受到惩罚吗?
在我们深入探讨之前,我想澄清一下,100 个链接的限制从来都不是一种惩罚情况。在 2007 年 8 月的一次采访中,兰德引用马特·卡茨的话:
“将链接数量保持在 100 以下”属于技术指南部分,而不是质量指南部分。这意味着如果页面上有 101 或 102 个链接,我们不会删除该页面。将此更多地视为经验法则。
当时,Google 可能会在某个时间点之后开始忽略链接,但最坏的情况是,这会阻止那些 100 后的链接通过 PageRank。该页面本身不会被取消索引或受到惩罚。
所以问题实际上是如何让谷歌认真对待你的所有链接。您可以通过生成供 Google 抓取的 XML 站点地图来实现此目的(您可以拥有静态 sitemap.xml 文件,也可以动态生成其内容)。您需要阅读Google 网站站长工具帮助文档的关于站点地图部分。
就像页面上的链接过多是一个问题一样,XML 站点地图文件中的链接过多也是一个问题。您需要做的就是对 XML 站点地图进行分页。Jeff Atwood 谈论了 StackOverflow 如何实现这一点:站点地图的重要性。Jeff 还在StackOverflow 播客 #24上讨论了同样的问题。
此外,这个概念也适用于Bing 。