小编Pao*_*ami的帖子

Pyspark数据帧:在对另一列进行分组时对列进行求和

我有一个问题要问,我有一个如下的数据框

In [94]: prova_df.show()


order_item_order_id order_item_subtotal
1                   299.98             
2                   199.99             
2                   250.0              
2                   129.99             
4                   49.98              
4                   299.95             
4                   150.0              
4                   199.92             
5                   299.98             
5                   299.95             
5                   99.96              
5                   299.98

Run Code Online (Sandbox Code Playgroud)

我想要做的是为第一列的每个不同值计算第二列的相应值的总和.我尝试使用以下代码执行此操作:

from pyspark.sql import functions as func
prova_df.groupBy("order_item_order_id").agg(func.sum("order_item_subtotal")).show()

Run Code Online (Sandbox Code Playgroud)

这给出了输出

SUM('order_item_subtotal)
129.99000549316406       
579.9500122070312        
199.9499969482422        
634.819995880127         
434.91000747680664

Run Code Online (Sandbox Code Playgroud)

我不确定它是否正确的做法.为什么不显示第一列的信息？提前感谢您的回答

python apache-spark-sql pyspark pyspark-sql apache-spark-1.3

Pao*_*ami

2019 09-06

2
推荐指数

3
解决办法

2万
查看次数

标签统计

apache-spark-1.3 ×1

apache-spark-sql ×1

pyspark ×1

pyspark-sql ×1

python ×1

Pyspark数据帧:在对另一列进行分组时对列进行求和

标签 统计

小编Pao_ami的帖子

标签统计