Maj*_*son 6 algorithm minhash locality-sensitive-hash
我已经阅读了许多使用min-hash实现LSH(局部敏感哈希)的教程,文档和代码片段.
LSH试图通过散列随机子集并在这些子集上进行聚合来找到两组的Jaccard系数.我查看了code.google.com中的实现,但也无法理解他们的方法.我理解Google新闻个性化的文章:可扩展的在线协同过滤,但我无法理解那里的任何实现.
有人可以用简单的话来解释我如何用MinHash实现LSH吗?
您希望实现min-hash算法,但不是 LSH本身.Min-hashing 是一种LSH技术.因此,LSH通常不接近Jaccard系数,min-hashing的特定方法确实如此.
Anand Rajaraman和Jeff Ullman在"大规模数据集挖掘"第3章中给出了介绍.