Ale*_*lex 6 nlp machine-learning
据我了解,NLP 中的科学共识是,在大规模科学文档集合(超过 10 亿份文档)中进行近似重复检测的最有效方法是这里找到的方法:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
可以简单地描述为:
a) 文档的叠瓦 b) 最小散列以获得带状疱疹的 minhash 签名 c) 局部敏感的散列以避免对所有签名进行成对相似度计算,而是仅关注桶内的对。
我已经准备好在 Map-Reduce 或 Spark 中实现这个算法,但是因为我是这个领域的新手(我已经阅读了大约两周的大规模近似重复检测)并且上述内容是几年前发布的,我想知道上述算法是否存在已知的局限性,以及是否存在更有效的不同方法(提供更有吸引力的性能/复杂性权衡)。
提前致谢!
关于第二步 b),最近的进展显着加快了签名的计算速度:
| 归档时间: |
|
| 查看次数: |
702 次 |
| 最近记录: |