谁能解释一下 c000.snappy.parquet 或 c000.snappy.orc 中的 c000 是什么意思?

Pra*_*ddy 3 hadoop hive apache-spark parquet orc

我已经搜索了所有文档,但仍然没有找到为什么在下面的文件命名约定中有前缀以及 c000 是什么:

文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet

Mob*_*bar 6

你应该使用“通话很便宜,给我看代码”。方法。一切都没有记录,一种方法就是代码。

考虑 part-1-2_3-4.parquet :

  1. 拆分/分区编号。

  2. 随机 UUID 以防止不同(附加)写入作业之间发生冲突。

  3. 唯一的工作/任务 ID(有时不包括在内)。
  4. “c”代表计数。这是文件计数器,表示过去为该特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从 0 开始。

我是根据这段代码这段代码找到的