为什么PySpark中的agg()一次只能汇总一列?

Geo*_*eRF 5 python apache-spark apache-spark-sql pyspark pyspark-sql

对于以下数据帧

df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High'])
Run Code Online (Sandbox Code Playgroud)

当我试图找到最小值和最大值时,我只输出最小值.

df.agg({'High':'max','High':'min'}).show()
Run Code Online (Sandbox Code Playgroud)
+-----------+
|min(High)  |
+-----------+
|    2094900|
+-----------+
Run Code Online (Sandbox Code Playgroud)

为什么agg()不能像熊猫一样给出最大和最小?

tit*_*o89 20

正如你在这里看到的:

AGG(*exprs)

计算聚合并将结果作为DataFrame返回.

可用的聚合函数是avg,max,min,sum,count.

如果exprs是从字符串到字符串的单个dict映射,则键是要对其执行聚合的列,并且该值是聚合函数.

或者,exprs也可以是聚合列表达式的列表.

参数: exprs - 从列名(字符串)到聚合函数(字符串)的dict映射,或列的列表.

您可以使用列列表并在每列上应用所需的函数,如下所示:

>>> from pyspark.sql import functions as F

>>> df.agg(F.min(df.High),F.max(df.High),F.avg(df.High),F.sum(df.High)).show()
+---------+---------+---------+---------+
|min(High)|max(High)|avg(High)|sum(High)|
+---------+---------+---------+---------+
|      4.3|    7.677|   5.9885|   11.977|
+---------+---------+---------+---------+
Run Code Online (Sandbox Code Playgroud)