fem*_*yte 5 hdfs apache-spark pyspark
将分区数据集写入 HDFS/S3 时,成功完成后会将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录?
目前,您可以通过直接将文件写入path/to/table/partition_key1=foo/partition_key2=bar而不是使用 Parquet writer 的partitionBy参数来获得所需的结果。
FWIW,我还认为_SUCCESS文件应该写入每个分区,特别是考虑到SPARK-13207和SPARK-20236已得到解决。
| 归档时间: |
|
| 查看次数: |
2836 次 |
| 最近记录: |