ken*_*ner 7 asp.net security session search-engine-bots
谷歌网站管理员指南声明
允许搜索机器人抓取您的网站,而无需会话ID或跟踪其通过网站的路径的参数.这些技术对于跟踪个人用户行为很有用,但是机器人的访问模式完全不同.使用这些技术可能会导致您网站的索引编制不完整,因为漫游器可能无法消除看起来不同但实际指向同一网页的网址.
我的ASP.NET 1.1站点使用自定义身份验证/授权,并且非常依赖会话guid(类似于此方法).我担心允许非会话跟踪流量会破坏我现有的代码或引入安全漏洞.
允许非会话跟踪机器人抓取正常会话跟踪站点的最佳做法是什么?除了检查用户代理之外,还有什么方法可以检测搜索机器人(我不希望人们欺骗自己作为googlebot来绕过我的会话跟踪)?
检测机器人的正确方法是通过主机条目 ( Dns.GetHostEntry
)。一些蹩脚的机器人要求您通过 IP 地址进行跟踪,但流行的机器人通常不需要。Googlebot 请求来自 *.googlebot.com。获得主机条目后,您应该检查IPHostEntry.AddressList
以确保它包含原始 IP 地址。
验证机器人时甚至不要查看用户代理。
另请参阅http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html
归档时间: |
|
查看次数: |
3104 次 |
最近记录: |