Geo*_*eRF 5 python apache-spark apache-spark-sql pyspark pyspark-sql
对于以下数据帧
df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High'])
Run Code Online (Sandbox Code Playgroud)
当我试图找到最小值和最大值时,我只输出最小值.
df.agg({'High':'max','High':'min'}).show()
Run Code Online (Sandbox Code Playgroud)
+-----------+
|min(High) |
+-----------+
| 2094900|
+-----------+
Run Code Online (Sandbox Code Playgroud)
为什么agg()不能像熊猫一样给出最大和最小?
tit*_*o89 20
正如你在这里看到的:
AGG(*exprs)
计算聚合并将结果作为DataFrame返回.
可用的聚合函数是avg,max,min,sum,count.
如果exprs是从字符串到字符串的单个dict映射,则键是要对其执行聚合的列,并且该值是聚合函数.
或者,exprs也可以是聚合列表达式的列表.
参数: exprs - 从列名(字符串)到聚合函数(字符串)的dict映射,或列的列表.
您可以使用列列表并在每列上应用所需的函数,如下所示:
>>> from pyspark.sql import functions as F
>>> df.agg(F.min(df.High),F.max(df.High),F.avg(df.High),F.sum(df.High)).show()
+---------+---------+---------+---------+
|min(High)|max(High)|avg(High)|sum(High)|
+---------+---------+---------+---------+
| 4.3| 7.677| 5.9885| 11.977|
+---------+---------+---------+---------+
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
19244 次 |
| 最近记录: |