Spark Parquet 表中的 _STARTED_、_COMMITTED_ 和 _SUCCESS_ 文件是什么?

Gad*_*dam 6 apache-spark parquet

编写/创建 Spark Parquet 表时,在底层存储文件夹中创建的STARTEDCOMMITTEDSUCCESS文件是什么?这些文件可以有多个吗?如果是这样,拥有多个以上意味着什么?

谢谢。

Str*_*ior 3

这些文件通过 DBIO 事务协议存储在那里。

\n
\n

通过 DBIO 事务提交,元数据文件以Spark 作业创建的数据文件开头_started_<id>并伴随数据文件。_committed_<id>一般来说,您不应该直接更改这些文件。相反,您应该使用 VACUUM 命令来清理它们。

\n
\n

https://docs.databricks.com/spark/latest/spark-sql/dbio-commit.html

\n