Spark:将RDD保存在HDFS中已存在的路径中

Question

我可以使用saveAsTextFile方法将RDD输出保存到HDFS .如果文件路径已存在,则此方法将引发异常.

我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中.有没有办法将新的RDD数据附加到已存在于同一路径中的数据？

Answer 1

一个可能的解决方案,因为火花1.6可用,是使用DataFrames与text格式和append模式:

val outputPath: String = ???

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)