用于大规模近乎重复文件检测的最新方法？

Question

据我了解，NLP 中的科学共识是，在大规模科学文档集合（超过 10 亿份文档）中进行近似重复检测的最有效方法是这里找到的方法：

可以简单地描述为：

a) 文档的叠瓦 b) 最小散列以获得带状疱疹的 minhash 签名 c) 局部敏感的散列以避免对所有签名进行成对相似度计算，而是仅关注桶内的对。

我已经准备好在 Map-Reduce 或 Spark 中实现这个算法，但是因为我是这个领域的新手（我已经阅读了大约两周的大规模近似重复检测）并且上述内容是几年前发布的，我想知道上述算法是否存在已知的局限性，以及是否存在更有效的不同方法（提供更有吸引力的性能/复杂性权衡）。

提前致谢！

Answer 1

关于第二步 b)，最近的进展显着加快了签名的计算速度：

快速准确的 Minwise 哈希的最佳致密化，2017 年， https://arxiv.org/abs/1703.04664
快速相似草图，2017，https://arxiv.org/abs/1704.04370
SuperMinHash - 用于 Jaccard 相似度估计的新 Minwise 哈希算法，2017，https://arxiv.org/abs/1706.05698
ProbMinHash - 一类用于（概率）Jaccard 相似性的局部敏感哈希算法，2019，https://arxiv.org/pdf/1911.00675.pdf