我有一个问题要问,我有一个如下的数据框
In [94]: prova_df.show()
order_item_order_id order_item_subtotal
1 299.98
2 199.99
2 250.0
2 129.99
4 49.98
4 299.95
4 150.0
4 199.92
5 299.98
5 299.95
5 99.96
5 299.98
Run Code Online (Sandbox Code Playgroud)
我想要做的是为第一列的每个不同值计算第二列的相应值的总和.我尝试使用以下代码执行此操作:
from pyspark.sql import functions as func
prova_df.groupBy("order_item_order_id").agg(func.sum("order_item_subtotal")).show()
Run Code Online (Sandbox Code Playgroud)
这给出了输出
SUM('order_item_subtotal)
129.99000549316406
579.9500122070312
199.9499969482422
634.819995880127
434.91000747680664
Run Code Online (Sandbox Code Playgroud)
我不确定它是否正确的做法.为什么不显示第一列的信息?提前感谢您的回答
python apache-spark-sql pyspark pyspark-sql apache-spark-1.3