相关疑难解决方法(0)

如何将PySpark中的表数据框导出到csv?

我正在使用Spark 1.3.1(PySpark),我使用SQL查询生成了一个表.我现在有一个对象DataFrame.我想将此DataFrame对象(我将其称为"表")导出到csv文件,以便我可以操作它并绘制列.如何将DataFrame"表" 导出到csv文件?

谢谢!

python dataframe export-to-csv apache-spark apache-spark-sql

59
推荐指数
5
解决办法
15万
查看次数

将Spark DataFrame的内容保存为单个CSV文件

假设我有一个Spark DataFrame,我想将其保存为CSV文件.在Spark 2.0.0之后,DataFrameWriter类直接支持将其保存为CSV文件.

默认行为是将输出保存在提供的路径中的多个部分 - *.csv文件中.

如何保存DF:

  1. 路径映射到确切的文件名而不是文件夹
  2. 标题在第一行可用
  3. 保存为单个文件而不是多个文件.

处理它的一种方法是合并DF然后保存文件.

df.coalesce(1).write.option("header", "true").csv("sample_file.csv")
Run Code Online (Sandbox Code Playgroud)

然而,这在主机上收集它并且需要具有足够内存的主机时具有缺点.

是否可以在不使用合并的情况下编写单个CSV文件?如果没有,是否有比上述代码更有效的方法?

csv apache-spark pyspark

17
推荐指数
4
解决办法
5万
查看次数