HDFS 中 parquet 文件的最佳压缩技术

Bal*_*_27 2 compression hdfs snappy parquet

我正在尝试对 Hdfs 中的镶木地板文件进行数据保留。对于已经用 snappy 压缩的这些类型的文件类型,哪种压缩技术比较好?

Uwe*_*orn 5

较新版本的 Parquet 支持 Zstandard 或 Brotli 压缩。根据压缩级别设置,这应该会比 snappy 提高压缩比和速度。但这需要您检查您使用的所有工具是否都支持 Zstandard。

Parquet 的一个重要方面是压缩是格式的一部分,并且数据块是单独压缩的。这允许非常有效地访问压缩文件,而无需完全解压缩它。在现有 Parquet 文件之上应用压缩将消除此功能并严重损害性能。