将 pyspark groupedData 对象转换为 spark Dataframe

Mau*_*ile 6 pyspark-sql

我必须对 pyspark 数据框进行 2 个级别的分组。我的试探:

grouped_df=df.groupby(["A","B","C"])
grouped_df.groupby(["C"]).count()
Run Code Online (Sandbox Code Playgroud)

但我收到以下错误:

'GroupedData' object has no attribute 'groupby'
Run Code Online (Sandbox Code Playgroud)

我想我应该首先将分组对象转换为 pySpark DF。但我不能那样做。

有什么建议吗?

小智 6

我遇到过同样的问题。我绕过它的方法是在第一个 groupby 之后首先执行“count()”,因为它返回一个 Spark DataFrame,而不是 GroupedData 对象。然后您可以在返回的 DataFrame 上执行另一个 groupby。

所以尝试:

grouped_df=df.groupby(["A","B","C"]).count()
grouped_df.groupby(["C"]).count()
Run Code Online (Sandbox Code Playgroud)