我目前正在开发一个生成大量文本内容的流API.正如所料,API提供了大量重复项,我们还有业务要求来过滤接近重复的数据.
我对数据流中的重复检测进行了一些研究,并阅读了有关稳定布隆过滤器的信息.稳定布隆过滤器是用于在数据流中进行重复检测的数据结构,其具有误报率的上限.
但是,我想识别近似重复项,我还查看了最近邻问题和近似重复检测中使用的哈希算法,如LSH和MinHash.
我有点陷入困境,并寻找关于如何继续和我可以看到的论文/实施的指针?
streaming filtering duplicates bloom-filter
bloom-filter ×1
duplicates ×1
filtering ×1
streaming ×1