yAs*_*AsH 1 hadoop hdfs apache-spark rdd
我可以使用saveAsTextFile方法将RDD输出保存到HDFS .如果文件路径已存在,则此方法将引发异常.
我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中.有没有办法将新的RDD数据附加到已存在于同一路径中的数据?
一个可能的解决方案,因为火花1.6可用,是使用DataFrames
与text
格式和append
模式:
val outputPath: String = ???
rdd.map(_.toString).toDF.write.mode("append").text(outputPath)
Run Code Online (Sandbox Code Playgroud)