Spark:将RDD保存在HDFS中已存在的路径中

yAs*_*AsH 1 hadoop hdfs apache-spark rdd

我可以使用saveAsTextFile方法将RDD输出保存到HDFS .如果文件路径已存在,则此方法将引发异常.

我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中.有没有办法将新的RDD数据附加到已存在于同一路径中的数据?

zer*_*323 6

一个可能的解决方案,因为火花1.6可用,是使用DataFramestext格式和append模式:

val outputPath: String = ???

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)
Run Code Online (Sandbox Code Playgroud)