检查200万个文件是否有重复项

Sar*_*mal 2 php mysql filesystems checksum duplicates

我们需要检查200万个文件,看看它们是否有任何重复.

这样做最好的方法是什么?

http://www.easyduplicatefinder.com/ 我们使用这个工具做了大约20k的文件

但很快我们将不得不做200万

关于如何以有效的方式完成这项工作的任何想法?

SAS

Tad*_*eck 5

MD5SHA-1中创建校验和(最好是因为碰撞不太可能),或者两者都是(当碰撞非常不可能时,你可以睡得很好,知道你没有犯错).

然后比较校验和.这将比较内容.如果您还想比较文件的名称,请在比较时将它们考虑在内.

就这些.相当(非常)可靠.