我有几个大(例如:比任何字典都大,100 多 GB)文件。这些文件具有非常高的熵并且压缩性非常差。然而,这些文件(据我所知)几乎完全相同。(实际上并没有压缩)
作为一个测试用例,尝试了一个小规模的模拟:
dd if=/dev/urandom of=random count=1G
cat random random random > 3random
gz -1 < 3random > 3random.gz
xz -1 < 3random > 3random.xz
Run Code Online (Sandbox Code Playgroud)
我认为这很好地模拟了用我的文件打包 tar。事实证明 gz 和 xz 都不能压缩这些文件,我并不感到惊讶,事实上它们会变大一些。
有没有一种合理的方法来压缩这些文件?这仅用于(离线)存档建议,不会经常进行解压缩。