小编Mos*_*zur的帖子

使用 Java 检查重复文件内容

我们有一个 150 Gb 的数据文件夹。其中,文件内容可以是任何格式(doc、jpg、png、txt 等)。我们需要相互检查所有文件内容以检查是否有重复的文件内容。如果是,则打印文件路径名列表。为此,我首先使用ArrayList<File>存储所有文件,然后使用FileUtils.contentEquals(file1, file2)方法。当我尝试处理少量文件(文件夹)时,它可以工作,但是对于这个 150Gb 数据文件夹,它没有显示任何结果。我认为首先将所有文件存储在 ArrayList 中会产生问题。JVM 堆问题,我不确定。

任何人都有更好的建议和示例代码来处理如此大量的数据?请帮我。

java algorithm collections checksum fileutils

4
推荐指数
1
解决办法
3520
查看次数

标签 统计

algorithm ×1

checksum ×1

collections ×1

fileutils ×1

java ×1