我想覆盖特定的分区而不是所有的火花.我正在尝试以下命令:
df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
Run Code Online (Sandbox Code Playgroud)
其中df是具有要覆盖的增量数据的数据帧.
hdfs-base-path包含主数据.
当我尝试上面的命令时,它会删除所有分区,并在hdfs路径中插入df中存在的分区.
我的要求是只覆盖指定hdfs路径中df中存在的那些分区.有人可以帮我吗?
我们如何覆盖分区数据集,但只覆盖我们要更改的分区?例如,重新计算上周的日常工作,并且只覆盖上周的数据.
默认的Spark行为是覆盖整个表,即使只写一些分区.