小编hug*_*ggs的帖子

Spark:DataFrame如何在groupBy结果上使用Sum

基于以下数据帧:

+---+-----+----+
| ID|Categ|Amnt|
+---+-----+----+
|  1|    A|  10|
|  1|    A|   5|
|  2|    A|  56|
|  2|    B|  13|
+---+-----+----+
Run Code Online (Sandbox Code Playgroud)

我想获得ID和分类列Amnt group的总和.

+---+-----+-----+
| ID|Categ|Count|
+---+-----+-----+
|  1|    A|  15 |
|  2|    A|  56 |
|  2|    B|  13 |
+---+-----+-----+
Run Code Online (Sandbox Code Playgroud)

在SQL中,我会做类似的事情

SELECT ID,
       Categ, 
       SUM (Count) 
FROM Table 
GROUP BY ID,
         Categ;
Run Code Online (Sandbox Code Playgroud)

但是如何在Scala中执行此操作?我试过了

DF.groupBy($"ID", $"Categ").sum("Count")
Run Code Online (Sandbox Code Playgroud)

但这只是改变了Count列名,sum(count)而不是实际给出了计数的总和.

谢谢

scala apache-spark spark-dataframe

2
推荐指数
1
解决办法
6663
查看次数

标签 统计

apache-spark ×1

scala ×1

spark-dataframe ×1