我读了这个:http: //spyced.blogspot.com/2009/01/all-you-ever-wanted-to-know-about.html
我的问题:
1.)是否正确,Cassandra只使用布隆过滤器,找出最有可能包含密钥的SST(排序字符串表)?由于可能存在多个SST并且Cassandra不知道哪个SST可能是密钥?因此,为了加速查看所有SST,使用bloomfilters.它是否正确?(我想了解卡桑德拉是如何工作的......)
2.)为什么(如上面的链接中所解释)键经过几次哈希?是否正确需要多次使用不同的Hash函数进行哈希处理才能获得更好的"随机分布"位?如果这是错误的,为什么需要多次对密钥进行哈希处理?这会耗费CPU周期吗?如果我有几个Hash函数的输出,那么对结果做了什么,它们是ANDed还是XORded.这有什么不同吗?
3.)使用MD5与SHA1(根据文章是随机分布的)相比,"使用Bloomfilter来衡量积极因素"的差异有多大?为什么MD5不是随机分布的?
非常感谢!!延