小编thi_ood的帖子

接近数据流中的重复检测

我目前正在开发一个生成大量文本内容的流API.正如所料,API提供了大量重复项,我们还有业务要求来过滤接近重复的数据.

我对数据流中的重复检测进行了一些研究,并阅读了有关稳定布隆过滤器的信息.稳定布隆过滤器是用于在数据流中进行重复检测的数据结构,其具有误报率的上限.

但是,我想识别近似重复项,我还查看了最近邻问题和近似重复检测中使用的哈希算法,如LSH和MinHash.

我有点陷入困境,并寻找关于如何继续和我可以看到的论文/实施的指针？

streaming filtering duplicates bloom-filter

5
推荐指数

1
解决办法

1986
查看次数

标签统计

bloom-filter ×1