Baa*_*ali 7 hadoop hive apache-spark parquet
语境:
左边:
column_a: INT64 SNAPPY DO:0 FPO:4 SZ:5179987/6161135/1.19 VC:770100 ENC:PLAIN,RLE,BIT_PACKED
Run Code Online (Sandbox Code Playgroud)
正确的:
column_a: INT64 SNAPPY DO:0 FPO:4 SZ:3040269/5671813/1.87 VC:782499 ENC:BIT_PACKED,PLAIN,RLE,PLAIN_DICTIONARY
Run Code Online (Sandbox Code Playgroud)
我的问题:
parquet 如何确定要使用的编码类型以及什么可能使 parquet 选择不同的编码?我们可以使用 Hive / Spark 配置来控制它吗?
我认为此处的邮件列表消息和此处的回复具有我所知道的最佳答案。简而言之,您无法直接控制 Parquet 对任何给定列使用的编码。有些事情可能有助于稍微改进它,例如指定您希望编写 Parquet 版本 2 文件而不是 Parquet 版本 1 文件,但这不是精确的控制。也许有一些事情可以做,但这可能需要深入研究 Parquet 实现的内部结构。
归档时间: |
|
查看次数: |
5524 次 |
最近记录: |