将分区数据集写入 HDFS/S3,每个分区中包含 _SUCCESS 文件

fem*_*yte 5 hdfs apache-spark pyspark

将分区数据集写入 HDFS/S3 时,成功完成后会将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录?

mat*_*mat 4

目前,您可以通过直接将文件写入path/to/table/partition_key1=foo/partition_key2=bar而不是使用 Parquet writer 的partitionBy参数来获得所需的结果。

FWIW,我还认为_SUCCESS文件应该写入每个分区,特别是考虑到SPARK-13​​207SPARK-20236已得到解决。