我正在使用Spark 1.3.1(PySpark),我使用SQL查询生成了一个表.我现在有一个对象DataFrame.我想将此DataFrame对象(我将其称为"表")导出到csv文件,以便我可以操作它并绘制列.如何将DataFrame"表" 导出到csv文件?
谢谢!
python dataframe export-to-csv apache-spark apache-spark-sql
假设我有一个Spark DataFrame,我想将其保存为CSV文件.在Spark 2.0.0之后,DataFrameWriter类直接支持将其保存为CSV文件.
默认行为是将输出保存在提供的路径中的多个部分 - *.csv文件中.
如何保存DF:
处理它的一种方法是合并DF然后保存文件.
df.coalesce(1).write.option("header", "true").csv("sample_file.csv")
Run Code Online (Sandbox Code Playgroud)
然而,这在主机上收集它并且需要具有足够内存的主机时具有缺点.
是否可以在不使用合并的情况下编写单个CSV文件?如果没有,是否有比上述代码更有效的方法?