将spark数据框中的多行合并为一行

pol*_*olo 10 dataframe apache-spark rdd apache-spark-sql

我有一个包含2列的数据框:timestamp,value timestamp是自纪元以来的时间,value是浮点值.我希望将行合并为min的平均值.这意味着我想要获取时间戳来自同一轮分钟(自纪元以来间隔60秒)的所有行,并将它们合并为一行,其中值列将是所有值的平均值.

举个例子,假设我的数据框看起来像这样:

timestamp      value
---------      -----
1441637160      10.0
1441637170      20.0
1441637180      30.0
1441637210      40.0
1441637220      10.0
1441637230      0.0
Run Code Online (Sandbox Code Playgroud)

前4行是同一分钟的一部分(1441637160%60 == 0,1441637160 + 60 == 1441637220)最后2行是另一分钟的一部分.我想合并同一分钟的所有行.得到一个看起来像的结果:

timestamp      value
---------      -----
1441637160      25.0  (since (10+20+30+40)/4 = 25)
1441637220      5.0   (since (10+0)/2 = 5)
Run Code Online (Sandbox Code Playgroud)

最好的方法是什么?

zer*_*323 6

您可以简单地分组和聚合.数据为:

val df = sc.parallelize(Seq(
  (1441637160, 10.0),
  (1441637170, 20.0),
  (1441637180, 30.0),
  (1441637210, 40.0),
  (1441637220, 10.0),
  (1441637230, 0.0))).toDF("timestamp", "value")
Run Code Online (Sandbox Code Playgroud)

导入所需的函数和类:

import org.apache.spark.sql.functions.{lit, floor}
import org.apache.spark.sql.types.IntegerType
Run Code Online (Sandbox Code Playgroud)

创建间隔列:

val tsGroup = (floor($"timestamp" / lit(60)) * lit(60))
  .cast(IntegerType)
  .alias("timestamp")
Run Code Online (Sandbox Code Playgroud)

并使用它来执行聚合:

df.groupBy(tsGroup).agg(mean($"value").alias("value")).show

// +----------+-----+
// | timestamp|value|
// +----------+-----+
// |1441637160| 25.0|
// |1441637220|  5.0|
// +----------+-----+
Run Code Online (Sandbox Code Playgroud)