小编Mic*_*fer的帖子

如何对 40TB 的数据进行重复数据删除？

我继承了一个研究集群，其中包含跨三个文件系统的约 40TB 数据。这些数据可以追溯到近 15 年前，而且很可能存在大量重复，因为研究人员出于不同的原因互相复制数据，然后继续保留副本。

我知道像 fdupes 和 rmlint 这样的重复数据删除工具。我正在尝试找到一个适用于如此大数据集的方法。我不在乎爬取所有数据是否需要数周（甚至数月）的时间 - 我可能会对其进行节流，以便在文件系统上轻松进行。但是我需要找到一种工具，它要么在 RAM 上以某种方式非常高效，要么可以将它需要的所有中间数据存储在文件中而不是 RAM 中。我假设如果我将所有这些数据作为一组爬行，我的 RAM (64GB) 将耗尽。

我现在正在 900GB 树上试验 fdupes。它已经完成了 25%，并且 RAM 使用量一直在缓慢上升，现在达到 700MB。

或者，有没有一种方法可以指导进程使用磁盘映射 RAM，以便有更多可用空间而不使用系统 RAM？

我正在运行 CentOS 6。

deduplication centos-6

Mic*_*fer

2014 08-23

17
推荐指数

1
解决办法

1461
查看次数