jay*_*ong 4 apache-spark parquet
案件:
part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet
我在代码中找不到 parquet 文件的一些规则。有人可以解释一下吗?
在这种情况下:
part-00000 表示分割分区号。
-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID,以允许 Spark 操作中的并发写入进程不发生冲突。
“c000”表示一个计数器,指示该分区的文件被写入的次数。这里它是零并且它依赖。说实话,不知道如果超过 999 会发生什么。
| 归档时间: |
|
| 查看次数: |
1898 次 |
| 最近记录: |