Lar*_*man 13 compression software-rec deduplication
我正在寻找可以对正在归档的文件执行重复数据删除 (dedupe) 的归档程序。解压缩存档后,该软件会将在压缩过程中删除的所有文件放回原处。
到目前为止,我发现:
任何人都知道其他人吗?
这可能是 7-zip 的一个很棒的补充。
Mok*_*bai 12
几乎所有现代归档器都这样做,唯一的区别是他们将其称为“可靠”归档,因为在将所有文件馈送到压缩算法之前,所有文件都被连接成一个流。这与标准 zip 压缩不同,后者将每个文件一个一个压缩,并将每个压缩文件添加到存档中。
7-zip 本质上有效地实现了重复数据删除。例如,7-Zip 将搜索文件,将按相似的文件类型和文件名对它们进行排序,因此相同类型和数据的两个文件将并排放置在流向压缩器算法的流中。压缩器将看到它最近看到的大量数据,与一个一个压缩文件相比,这两个文件的压缩效率将大大提高。
由于 tar 只是将所有文件合并到一个流中(尽管没有文件的排序和分组),然后用 gzip 压缩。这遗漏了 7-zip 正在执行的排序,这可能会稍微降低效率,但仍然比以 zip 的方式简单地将大量单独压缩的文件打包在一起要好得多。
小智 6
7-Zip、zip、gzip 和所有其他归档程序不会检测到彼此相距很远的相同区域,例如仅几兆字节或更大的区域,位于同一文件内或位于不同文件内的不同位置。
所以不,在某些情况下,普通归档器的性能不如 exdupe 和其他归档器。如果您压缩一些虚拟机或其他东西,您可以看到这一点。