小编Chi*_*lvi的帖子

如何从 pyspark 数据框中更快地保存 csv 文件？

我目前在本地 Windows 10 系统上使用 pyspark。pyspark 代码运行速度非常快，但需要花费大量时间将 pyspark 数据帧保存为 csv 格式。

我正在将 pyspark 数据框转换为 Pandas，然后将其保存到 csv 文件。我也尝试过使用 write 方法来保存 csv 文件。

Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False)




Full_data.repartition(1).write.format('com.databricks.spark.csv').option("header", "true").save("Level 1 - {} Hourly Avg Data.csv".format(yr))

Run Code Online (Sandbox Code Playgroud)

两个代码都花了大约一个小时来保存 csv 文件。有没有更快的方法来从 pyspark 数据框中保存 csv 文件？

python hadoop apache-spark pyspark

Chi*_*lvi

2019 08-01

4
推荐指数

1
解决办法

1999
查看次数

标签统计

apache-spark ×1

hadoop ×1

pyspark ×1

python ×1

如何从 pyspark 数据框中更快地保存 csv 文件？

标签 统计

小编Chi_lvi的帖子

标签统计