PySpark中熊猫的value_counts()等于多少?

TSA*_*SAR 8 count dataframe pyspark pandas-groupby

我有以下python / pandas命令:

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()
Run Code Online (Sandbox Code Playgroud)

我在哪里获取DataFrameGroupBy对象中所有列的值计数。

如何在PySpark中执行此操作?

s51*_*510 16

当你想控制顺序时试试这个:

data.groupBy('col_name').count().orderBy('count', ascending=False).show()
Run Code Online (Sandbox Code Playgroud)


Tan*_*jin 6

大致相同:

spark_df.groupBy('column_name').count().orderBy('count')
Run Code Online (Sandbox Code Playgroud)

在groupBy中,您可以有多个列,以 ,

例如 groupBy('column_1', 'column_2')

  • 为了匹配 Pandas 中的行为,您希望按降序返回计数: `spark_df.groupBy('column_name').count().orderBy(col('count').desc()).show()` (4认同)
  • 您需要添加到该行末尾才能实际看到结果的缺少的“.show()”可能会让初学者感到困惑。 (3认同)