Use*_*rty 4 compression hadoop hive apache-spark parquet
我正在使用 spark 以镶木地板格式在 Hadoop 和 hive 上编写数据。我想启用压缩,但我只能找到 2 种压缩类型 - 大多数时候使用 snappy 和 Gzip。Parquet 是否还支持任何其他压缩,如 Deflate 和 lzo?
parquet-format存储库中指定了 Apache Parquet 支持的压缩类型:
/**
* Supported compression algorithms.
*
* Codecs added in 2.4 can be read by readers based on 2.4 and later.
* Codec support may vary between readers based on the format version and
* libraries available at runtime. Gzip, Snappy, and LZ4 codecs are
* widely available, while Zstd and Brotli require additional libraries.
*/
enum CompressionCodec {
UNCOMPRESSED = 0;
SNAPPY = 1;
GZIP = 2;
LZO = 3;
BROTLI = 4; // Added in 2.4
LZ4 = 5; // Added in 2.4
ZSTD = 6; // Added in 2.4
}
Run Code Online (Sandbox Code Playgroud)
Snappy 和 Gzip 是最常用的,所有实现都支持。LZ4 和 ZSTD 产生更好的结果,前两者是格式的一个相当新的补充,因此它们仅在某些实现的较新版本中受支持。
您可以设置以下 Parquet 特定选项来写入 Parquet 文件:(
compression默认为 中指定的值spark.sql.parquet.compression.codec):保存到文件时使用的压缩编解码器。这可以是公知的,不区分大小写缩短名称之一(none,snappy,gzip,和lzo)。
这将覆盖spark.sql.parquet.compression.codec
...
整体支持compresssions是:none,uncompressed,snappy,gzip,lzo,brotli,lz4,和zstd
| 归档时间: |
|
| 查看次数: |
10341 次 |
| 最近记录: |