小编Aks*_*edi的帖子

spark-计算2列或更多列中的平均值,并在每行中放入新列

假设我有一个包含以下内容的数据集/数据框:

name, marks1, marks2
Alice, 10, 20
Bob, 20, 30
Run Code Online (Sandbox Code Playgroud)

我想添加一个新列,该列应具有列B和C的平均值。

预期结果:-

name, marks1, marks2, Result(Avg)
Alice, 10, 20, 15
Bob, 20, 30, 25
Run Code Online (Sandbox Code Playgroud)

用于求和或任何其他算术运算df.withColumn("xyz", $"marks1"+$"marks2")。我找不到平均值的类似方法。请帮忙。

另外:-列数不是固定的。就像有时它可能是2列的平均值,有时是3列甚至更多列。所以我想要一个通用的代码,它应该可以工作。

apache-spark apache-spark-sql pyspark pyspark-sql

1
推荐指数
2
解决办法
5581
查看次数