是否有"检测WebDrawling的近似重复"中描述的想法的实现

Mic*_*ine 9 algorithm similarity duplicates

论文:http://www2007.org/papers/paper215.pdf

我只是想知道那篇论文的第3章是否有任何实现.我的意思是在大型数据集中查询,不仅仅是simhash(很容易找到simhash实现).

谢谢〜

小智 0

这是一个,但我还没有测试过它是否有效。好处是它是开源的。