genereal中的爬虫考虑http:// server/page和http:// server/page?parameter = 1两个不同的URL.
Google和Bing抓取工具如何考虑哈希标记网址,例如http:// server/page #hash?
根据http://www.tynt.com/support/faq#technical,忽略哈希标记之后的所有内容.还有其他消息来源证实这一点吗?
你的来源是正确的.通常会忽略散列标记(也称为URL片段)之后的所有内容.原因是,URL片段通常仅由浏览器使用,并且不会导致从服务器提取其他信息.所以页面的内容应该基本保持不变.
例如,hash参数通常以两种方式使用,或者作为页面锚点(想想"转到页面顶部"),或者作为通过javascript传递信息的方式.
该规则的例外是AJAX可抓取性实现.在这种情况下,如果您有"hash-bang"(#!),Google和Bing(可能)会尝试抓取您的AJAX内容,这会将您的哈希参数值视为单独的页面.
谷歌=> "使AJAX应用程序可抓取"
Search Engine Land => Bing现在支持谷歌的可抓取AJAX标准?