未经Google编入索引的网页

net*_*bi3 0 .net indexing

据我所知,我的公司在我们的网站上运行Google搜索索引所有页面.我开发了一个文档系统,也被谷歌索引.系统中的页面是动态生成的,因此我将www.mysite.com/doc.aspx?id=234,www.mysite.com/doc.aspx?id=236等编入索引.问题在于,某些随机页面(例如,www.mysite.com/doc.aspx?id = 235)由于某种未知原因而未编入索引.我希望在哪里解决这个问题?有任何想法吗?

Fra*_*fer 6

这是一个关于谷歌如何处理您的网站的简短而简化的大纲

discovery -> crawling -> indexing -> ranking (->feedback)
Run Code Online (Sandbox Code Playgroud)

发现:是google发现你网站页面的过程,这可以通过html中的链接或通过sitemap.xml(以及onpage javascript,rss或atom feed中的网址,...基本上任何网址)来完成谷歌可以在某处找到)

抓取:Google抓取已发现网址内容的过程(并将新找到的网址推送到发现队列中)

索引:将已发现和已爬网的内容存储到其数据库中并使其可搜索

排名:将索引内容与用户查询相匹配 - 如果足够重要 - 将其作为可见的SERP列表返回给用户.

基于点击/不点击行为的反馈和从其他来源收集的数据(推测的ISDN数据和谷歌工具栏,Chrome浏览器报告,......)谷歌收集有关用户行为的反馈(在点击后).

  • 每个步骤之间都有很多质量指标(最后一步只是质量指标收集步骤).
  • 每个步骤都会报告回到之前的步骤.

所以基本上即使您将所有网址都传达给谷歌(即通过sitemap.xml),谷歌也不一定会抓取您的所有网址或索引或将其排名可见.

好吧,那么什么是低悬的水果,以获得更多的页面进入索引(​​他们至少有机会排名的东西)?

  • 每页只传递一个URL(使用http 301重定向,规范标记并清理网络上的所有链接)
  • 让您的网站更快(影响巨大)
  • 使它更明智KB(很好的影响,主要是因为它也更快)
  • 在您的网页上添加更多独特内容.
  • 防止重复内容
  • 外部(来自其他网站)链接到您的网页(不是总数很重要,但随着时间的推移会稳定增长)

ps:就像旁注一样 - 爬行步骤是可选的.即使是未被抓取的网址(即如果它们被robots.txt阻止)也可以获得索引(和排名) - 但这不是很常见