相关疑难解决方法(0)

在spark数据帧写入方法中覆盖特定分区

我想覆盖特定的分区而不是所有的火花.我正在尝试以下命令:

df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
Run Code Online (Sandbox Code Playgroud)

其中df是具有要覆盖的增量数据的数据帧.

hdfs-base-path包含主数据.

当我尝试上面的命令时,它会删除所有分区,并在hdfs路径中插入df中存在的分区.

我的要求是只覆盖指定hdfs路径中df中存在的那些分区.有人可以帮我吗?

apache-spark apache-spark-sql spark-dataframe

52
推荐指数
6
解决办法
5万
查看次数

仅覆盖分区的spark数据集中的某些分区

我们如何覆盖分区数据集,但只覆盖我们要更改的分区?例如,重新计算上周的日常工作,并且只覆盖上周的数据.

默认的Spark行为是覆盖整个表,即使只写一些分区.

hive apache-spark apache-spark-dataset

15
推荐指数
2
解决办法
5097
查看次数