bep*_*ter 5 hard-drive diff comparison
有一个与此类似的现有问题根本没有在适当的上下文(需要比较的大量数据)中得到回答,所以我在这里再次尝试。
我正在使用SuperDuper在外部驱动器上维护 Mac 内部硬盘驱动器的克隆副本。由于该程序内置的数据完整性措施,您的目标卷可能需要比源驱动器多得多的空间,但这不是重点。
我想做的是在音量级别上运行“文件夹”比较。最简单地说,我本质上希望diff -r /Volumes/MacintoshHD /Volumes/BackupDrive
有一个像样的导航界面来处理结果。最大的问题是这些 1TB 磁盘包含大约800 GB数据和大约310 万个单独文件。我尝试过很多 diff 工具,但似乎没有一个能够处理如此大量的数据。以下是完全失败的应用程序的简短列表:
diff
(命令行)。由于它将结果传输到控制台,这比其他方法更“可靠”,但它会产生大量不可用的文本输出(没有用于“浏览”差异的人性化界面。)
FileMerge(来自 Apple 的开发工具)。对于较小的文件集,界面工作得很好,但在如此巨大的规模上,它会在尝试扫描时挂起几个小时,并最终在完成之前崩溃。
万花筒。在没有准确进度条的情况下扫描多个小时后,它最终会显示 A/B 比较窗口,但如果您尝试导航,它会随机完全删除“B”面,迫使您重新开始。(这是毫无意义的,因为它只会再次删除 B 面。)
阿拉克西斯合并。我尝试过的所有事情中最接近的。它最终确实产生了比较,但生成它和导航它的速度明显慢到无法忍受的程度。当您谈论开始使用数据集之前需要 18 小时的扫描时间,并且每次尝试更改差异中的目录时都会挂起 20-40 秒,速度和稳定性会产生巨大的差异。
所以我的问题是:是否有专门针对大规模比较而定制的差异工具?人们“通常”如何比较以三位数千兆字节为单位的大型数据集?是否有我的搜索尚未找到的取证工具?特别是,我只关心差异,而不关心相同部分。我预计变化的百分比相对较小,可能是 1-5%,因此“抛弃”相似性的工具对于如此大的数据集将具有巨大的优势。