PySpark中熊猫的value_counts（）等于多少？

Question

我有以下python / pandas命令：

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

我在哪里获取DataFrameGroupBy对象中所有列的值计数。

如何在PySpark中执行此操作？

Answer 1

当你想控制顺序时试试这个：

data.groupBy('col_name').count().orderBy('count', ascending=False).show()

Answer 2

大致相同：

spark_df.groupBy('column_name').count().orderBy('count')

在groupBy中，您可以有多个列，以 ,

例如 groupBy('column_1', 'column_2')

为了匹配 Pandas 中的行为，您希望按降序返回计数： `spark_df.groupBy('column_name').count().orderBy(col('count').desc()).show()` (4认同)
您需要添加到该行末尾才能实际看到结果的缺少的“.show()”可能会让初学者感到困惑。 (3认同)