将分区数据集写入 HDFS/S3，每个分区中包含 _SUCCESS 文件

Question

将分区数据集写入 HDFS/S3 时，成功完成后会将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录？

Answer 1

目前，您可以通过直接将文件写入path/to/table/partition_key1=foo/partition_key2=bar而不是使用 Parquet writer 的partitionBy参数来获得所需的结果。

FWIW，我还认为_SUCCESS文件应该写入每个分区，特别是考虑到SPARK-13207和SPARK-20236已得到解决。