相关疑难解决方法(0)

我正在使用Spark 1.3.1(PySpark),我使用SQL查询生成了一个表.我现在有一个对象DataFrame.我想将此DataFrame对象(我将其称为"表")导出到csv文件,以便我可以操作它并绘制列.如何将DataFrame"表" 导出到csv文件？

谢谢!

59
推荐指数

5
解决办法

15万
查看次数

假设我有一个Spark DataFrame,我想将其保存为CSV文件.在Spark 2.0.0之后,DataFrameWriter类直接支持将其保存为CSV文件.

默认行为是将输出保存在提供的路径中的多个部分 - *.csv文件中.

如何保存DF:

处理它的一种方法是合并DF然后保存文件.

df.coalesce(1).write.option("header", "true").csv("sample_file.csv")

然而,这在主机上收集它并且需要具有足够内存的主机时具有缺点.

是否可以在不使用合并的情况下编写单个CSV文件？如果没有,是否有比上述代码更有效的方法？

17
推荐指数

4
解决办法

5万
查看次数

csv ×1