查找重复文件的 Linux 工具？

Question

我有大量且不断增长的文本文件，它们都非常小（小于 100 字节）。我想区分每个可能的文件对并注意哪些是重复的。我可以编写一个 Python 脚本来做到这一点，但我想知道是否有一个现有的 Linux 命令行工具（或者一个简单的工具组合）可以做到这一点？

更新（响应mfinni评论）：这些文件都在一个目录中，因此它们都有不同的文件名。（但它们都有一个共同的文件扩展名，因此可以轻松地使用通配符将它们全部选中。）

Answer 1

有fdupes。但我通常使用的组合find . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36

@Daryl：像这样使用`xargs` 不适用于带有空格的文件名，但是使用`-exec` 可以。使用 `-type f` 作为 `find` 的附加参数（可以与 `-name` 一起使用）将搜索限制为文件。 (3认同)

Answer 2

那么有 FSlint - 我没有在这种特殊情况下使用它，但我应该能够处理它：http : //en.flossmanuals.net/FSlint/Introduction