小编Joh*_*Lin的帖子

Spark SQL 可以在 GROUP BY 聚合中使用 FIRST_VALUE 和 LAST_VALUE（但这不是标准的）

（在 Spark 2.2 和 2.3 上测试）

我正在使用 Spark 将股票交易报价汇总到每日 OHLC（开盘-高-低-收盘）记录中。

输入数据就像

val data = Seq(("2018-07-11 09:01:00", 34.0), ("2018-07-11 09:04:00", 32.0), ("2018-07-11 09:02:00", 35.0), ("2018-07-11 09:03:00", 30.0), ("2018-07-11 09:00:00", 33.0), ("2018-07-12 09:01:00", 56.0), ("2018-07-12 09:04:00", 54.0), ("2018-07-12 09:02:00", 51.0), ("2018-07-12 09:03:00", 50.0), ("2018-07-12 09:00:00", 51.0)).toDF("time", "price")

data.createOrReplaceTempView("ticks")

data.show

scala>

Run Code Online (Sandbox Code Playgroud)

显示为

+-------------------+-----+
|               time|price|
+-------------------+-----+
|2018-07-11 09:01:00| 34.0|
|2018-07-11 09:04:00| 32.0|
|2018-07-11 09:02:00| 35.0|
|2018-07-11 09:03:00| 30.0|
|2018-07-11 09:00:00| 33.0|
|2018-07-12 09:01:00| 56.0|
|2018-07-12 09:04:00| 54.0|
|2018-07-12 09:02:00| 51.0|
|2018-07-12 09:03:00| 50.0| …

Run Code Online (Sandbox Code Playgroud)

apache-spark-sql

Joh*_*Lin

2021 06-06

9
推荐指数

1
解决办法

5278
查看次数

标签统计

apache-spark-sql ×1

Spark SQL 可以在 GROUP BY 聚合中使用 FIRST_VALUE 和 LAST_VALUE（但这不是标准的）

标签 统计

小编Joh_Lin的帖子

标签统计