我必须对 pyspark 数据框进行 2 个级别的分组。我的试探:
grouped_df=df.groupby(["A","B","C"])
grouped_df.groupby(["C"]).count()
Run Code Online (Sandbox Code Playgroud)
但我收到以下错误:
'GroupedData' object has no attribute 'groupby'
Run Code Online (Sandbox Code Playgroud)
我想我应该首先将分组对象转换为 pySpark DF。但我不能那样做。
有什么建议吗?
小智 6
我遇到过同样的问题。我绕过它的方法是在第一个 groupby 之后首先执行“count()”,因为它返回一个 Spark DataFrame,而不是 GroupedData 对象。然后您可以在返回的 DataFrame 上执行另一个 groupby。
所以尝试:
grouped_df=df.groupby(["A","B","C"]).count()
grouped_df.groupby(["C"]).count()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
13023 次 |
| 最近记录: |