我很想尝试实现minhashing以找到接近重复的内容.http://blog.cluster-text.com/tag/minhash/有一个很好的写作,但是有一个问题是你需要在文档中的带状符号中运行多少哈希算法才能获得合理的结果.
上面的博客文章提到了200个散列算法.http://blogs.msdn.com/b/spt/archive/2008/06/10/set-similarity-and-min-hash.aspx将100列为默认值.
显然,随着哈希数量的增加,准确度会有所提高,但有多少哈希函数是合理的?
引用博客
很难让我们的相似性估计误差小于[7%]因为统计采样值上的误差条缩放 - 将误差条减半,我们需要四倍的样本.
这是否意味着将哈希数减少到12(200/4/4)之类的结果会导致错误率为28%(7*2*2)?