如何识别略有修改的图像？

Question

我有一个非常大的jpeg图像数据库,大约200万.我想模糊搜索这些图像中的重复项.重复图像是两个图像,其具有相同值的许多(大约一半)像素,其余图像的R/G/B值偏差约+/- 3.图像与肉眼相同.这是你从重新压缩jpeg中获得的那种差异.

我已经有了一种万无一失的方法来检测两个图像是否相同:我将所有像素上的增量亮度相加并与阈值进行比较.这种方法已经证明100%准确,但是对照200万张照片非常慢(每张照片的小时数).

我想以一种我可以比较哈希表中的指纹的方式对图像进行指纹处理.即使我能够可靠地减少我需要比较的图像数量只有100,我也会很好地比较1到100.对此有什么好的算法？

Answer 1

在2008年英国机器视觉会议论文集中,看看O. Chum,J.Philbin和A. Zisserman,近似重复图像检测:min-hash和tf-idf加权.他们解决了你所遇到的问题并展示了146k图像的结果.但是,我对他们的方法没有第一手经验.