Spark更简单的value_counts

Geo*_*ler 7 apache-spark apache-spark-sql apache-spark-dataset

类似于Spark - Group by Key然后Count by Value将允许我df.series.value_counts()在Spark中模拟Pandas的功能:

生成的对象将按降序排列,以便第一个元素是最常出现的元素.默认情况下排除NA值.(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html)

我很好奇,如果在Spark中数据帧不能更好/更简单.

use*_*411 7

它只是一个基本的聚合,不是吗?

df.groupBy($"value").count.orderBy($"count".desc)
Run Code Online (Sandbox Code Playgroud)

熊猫:

import pandas as pd

pd.Series([1, 2, 2, 2, 3, 3, 4]).value_counts()
Run Code Online (Sandbox Code Playgroud)
2    3
3    2
4    1
1    1
dtype: int64
Run Code Online (Sandbox Code Playgroud)

Spark SQL:

Seq(1, 2, 2, 2, 3, 3, 4).toDF("value")
  .groupBy($"value").count.orderBy($"count".desc)
Run Code Online (Sandbox Code Playgroud)
+-----+-----+
|value|count|
+-----+-----+
|    2|    3|
|    3|    2|
|    1|    1|
|    4|    1|
+-----+-----+
Run Code Online (Sandbox Code Playgroud)

如果您想要包含其他分组列(例如"key"),请将它们放在groupBy:

df.groupBy($"key", $"value").count.orderBy($"count".desc)
Run Code Online (Sandbox Code Playgroud)