如何将spark sql数据框的摘要写入excel文件

Ajg*_*Ajg 3 apache-spark pyspark spark-dataframe

我有一个非常大的 Dataframe,有 8000 列和 50000 行。我想将其统计信息写入excel文件。我认为我们可以使用describe()方法。但是如何以良好的格式将其编写为excel。谢谢

Dav*_*vid 6

的返回类型describe是 pyspark 数据框。将describe数据帧转换为 excel 可读格式的最简单方法是将其转换为 Pandas 数据帧,然后将 Pandas 数据帧作为 csv 文件写出,如下所示

import pandas
df.describe().toPandas().to_csv('fileOutput.csv')
Run Code Online (Sandbox Code Playgroud)

如果你想要excel格式,你可以试试下面

import pandas
df.describe().toPandas().to_excel('fileOutput.xls', sheet_name = 'Sheet1', index = False)
Run Code Online (Sandbox Code Playgroud)

注意,以上需要安装xlwt包(命令行中pip install xlwt)