查找重复的图像文件

abh*_*nav 1 image image-processing

我有大约1 TB的图像,存储在我的硬盘中.这些是随着时间的推移拍摄的朋友和家人的照片.这些图片中的许多都是重复的,在某种意义上,相同的文件保存在不同的位置,可能也有不同的名称.我想问是否有任何工具,实用程序或方法(我可以编写一个)来找出重复的文件.

mvp*_*mvp 5

我建议使用md5deep或sha1deep.在Linux上只需安装包md5deep(它包含在大多数Linux发行版中).

安装完毕后,只需在整个磁盘上以递归模式运行它,并使用以下命令将磁盘上每个文件的校验和保存到文本文件中:

md5deep -r -l . > filelist.txt
Run Code Online (Sandbox Code Playgroud)

如果你sha1更喜欢md5,请sha1deep改用(它是同一个包的一部分).

获得文件后,只需使用它sort(或sort在上一步中将其管道化)进行排序:

sort < filelist.txt > filelist_sorted.txt
Run Code Online (Sandbox Code Playgroud)

现在,只需使用任何文本编辑器查看结果 - 您将快速查看所有重复项以及它们在磁盘上的位置.

如果您如此倾向,可以在Perl或Python中编写简单的脚本,以根据此文件列表删除重复项.