WinRAR 是否检测重复文件?

sas*_*alm 7 winrar

我有一个包含子目录的目录,其中有很多重复的文件。如果我将所有内容移动到单个 rar 存档中,WinRAR 会检测到重复的文件,还是将所有文件都存档并加起来等于 rar 存档的大小?

afr*_*ier 7

如果文件确实是重复的(或接近重复的),压缩软件可以利用文件之间的相似性来大大提高压缩率。它被称为固体压缩。WinRAR 和 7-Zip 是使用它的 2 个流行的归档程序——7-Zip 默认使用它。我不是 RAR 用户,所以我不能告诉你这是默认配置。

Linux/Unix/BSD 系统上的常见归档程序也通过将所有文件连接到一个文件中(通常通过tar)隐式地进行固体压缩,然后将该单个文件压缩为一个大块。

对这一切的一个巨大警告是,您实际上无法确切知道哪些文件相似,或者它们的相似程度。这不是找出您拥有哪些重复文件的好方法,提取存档将恢复所有重复文件。通常,这正是人们想要和期望的数据压缩 - 准确地取出放入其中的内容。

如果要清理文件夹,则需要重复检测软件。对于普通收藏,有大量软件可以找出重复文件。如果您正在处理媒体(音频、视频、图片),那么您将需要不搜索完全重复但可以对您的文件进行指纹识别并找到相似文件组的软件。这样,如果您有 2 份带有不同标签或压缩方式略有不同(例如,128 Kb/s MP3 和 256 Kb/s AAC)的同一首歌曲,则可以识别它们。或者识别同一主题的两张图片,其中一张已被裁剪或编辑。每种媒体类型通常都有用于查找相似文件的专门软件,在处理每种类型的细节之前,这里一直存在问题。当然,


小智 7

新版本的 WinRAR 5.00 引入了新的 RAR5 存档格式,此功能是众多改进之一:

将相同的文件另存为参考

如果启用此选项,WinRAR 会在开始归档之前分析文件内容。如果找到多个大于 64 KB 的相同文件,则集中的第一个文件将保存为普通文件,所有后续文件都保存为对第一个文件的引用。它允许减少存档大小,但对生成的存档应用一些限制。创建存档后,您不得删除或重命名存档中的第一个相同文件,因为这将无法提取使用它作为参考的后续文件。如果修改第一个文件,解压后后面的文件也会有修改的内容。提取命令必须涉及第一个文件才能成功创建以下文件。

建议仅当您压缩大量相同文件时才使用此选项,以后不会修改存档并将完整提取存档,而无需解压缩或跳过单个文件。如果所有相同的文件都足够小以适合压缩字典,则固体归档可以提供比此选项更灵活的解决方案。

仅支持 RAR 5.0 档案。

我对一个包含 320,000 个文件的文件夹进行了快速测试(Baldur's Gate Trilogy 有很多 mods):

RAR4 压缩方式,压缩设置为“Store”:26.1 GB(28,053,815,768 字节)

RAR5 压缩方法,压缩设置为“存储”和“将相同文件另存为参考”打开:23.9 GB(25,722,664,097 字节)

所以我能够在不使用任何压缩的情况下节省超过 9%!

  • ```在创建存档后,您不得删除或重命名存档中的第一个相同文件,因为它将无法提取使用它作为参考的后续文件。``` - 这很奇怪,为什么不保留一个引用计数器并且只有在参考计数器达到零时才删除文件?这就是硬链接在 linux 文件系统上的工作方式..并且存储开销是每个文件 2 个字节(对于 uint16,最多可以计算 65535 个引用)-如果您可以最多 255 个引用,则为 1 个字节 (4认同)