如何修复“DataFrame”对象没有“coalesce”属性？

Question

在 PySpark 应用程序中，我尝试通过将数据帧转换为 Pandas 来转置数据帧，然后我想将结果写入 csv 文件。这就是我的做法：

df = df.toPandas().set_index("s").transpose()
df.coalesce(1).write.option("header", True).option("delimiter", ",").csv('dataframe')

执行此脚本时，出现以下错误：

'DataFrame' object has no attribute 'coalesce'

问题是什么？我该如何解决？

Answer 1

问题是您将 Spark 数据帧转换为 pandas 数据帧。pandas 数据框没有coalesce方法。您可以在此处查看 pandas 的文档。

当您使用的toPandas()数据帧已收集并在内存中时，请尝试使用 pandas 数据帧方法df.to_csv(path)。