如何将Spark RDD保存到本地文件系统

roh*_*roh 5 hadoop hive scala dataframe apache-spark

我可以用saveAsTextFile语法将文件保存到本地系统吗?这就是我编写保存文件的语法: insert_df.rdd.saveAsTextFile("<local path>")

当我正在尝试这样做时,我得到错误,因为没有权限,但我拥有该特定本地路径的所有权限,看起来它将文件视为HDFS文件.

Sim*_*iff 8

我想你应该尝试"file:///local path"而不是"/local path".

  • 当我要将RDD的内容保存到群集上的文本文件时,我不使用saveAsTextFile。也许您必须使用collect(),但这在庞大的RDD上并不是一个好主意。如果可行,您将获得与RDD分区数相同数量的文本文件。我在Java中使用的是以下内容:`rdd.toLocalIterator()。forEachRemaining(x-&gt; bw.write(x.toString())`)其中bw是BufferedWriter。 (2认同)