YuG*_*rin 7 gzip apache-spark parquet
在这个主题上搜索和阅读互联网上的答案时,我会收到令人困惑的信息.有谁可以分享他们的经验?我知道gzipped csv不是这样的事实,但是Parquet的文件内部结构可能是Parquet vs csv完全不同的情况?
Uwe*_*orn 17
具有GZIP压缩的镶木地板文件实际上是可拆分的.这是因为Parquet文件的内部布局.它们总是可拆分的,与使用的压缩算法无关.
这个事实主要是由于Parquet文件的设计分为以下几个部分:
您可以在此处找到更详细的说明:https://github.com/apache/parquet-format#file-format
| 归档时间: |
|
| 查看次数: |
4288 次 |
| 最近记录: |