小编Bri*_*ing的帖子

为生产系统选择SimHash和MinHash

我熟悉SimHash和MinHash的LSH(Locality Sensitive Hashing)技术.SimHash使用余弦相似性而不是实值数据.MinHash计算二元向量的相似度.但我不能决定使用哪一个更好.

我正在为一个网站创建一个后端系统,以查找半结构化文本数据的近似副本.例如,每条记录都有标题,位置和简短的文字说明(<500字).

除了特定的语言实现,哪种算法最适合绿地生产系统?

minhash simhash

11
推荐指数
2
解决办法
6657
查看次数

标签 统计

minhash ×1

simhash ×1