将 pyspark groupedData 对象转换为 spark Dataframe

Question

我必须对 pyspark 数据框进行 2 个级别的分组。我的试探：

grouped_df=df.groupby(["A","B","C"])
grouped_df.groupby(["C"]).count()

但我收到以下错误：

'GroupedData' object has no attribute 'groupby'

我想我应该首先将分组对象转换为 pySpark DF。但我不能那样做。

有什么建议吗？

Answer 1

我遇到过同样的问题。我绕过它的方法是在第一个 groupby 之后首先执行“count()”，因为它返回一个 Spark DataFrame，而不是 GroupedData 对象。然后您可以在返回的 DataFrame 上执行另一个 groupby。

所以尝试：

grouped_df=df.groupby(["A","B","C"]).count()
grouped_df.groupby(["C"]).count()