比较Spark中当前行和上一行的值

Question

比较Spark中当前行和上一行的值

Avi*_*jit 2 scala apache-spark apache-spark-sql

我正在尝试比较下面的当前行和上一行的记录DataFrame。我要计算“金额”列。

scala> val dataset = sc.parallelize(Seq((1, 123, 50), (2, 456, 30), (3, 456, 70), (4, 789, 80))).toDF("SL_NO","ID","AMOUNT")

scala> dataset.show
+-----+---+------+
|SL_NO| ID|AMOUNT|
+-----+---+------+
|    1|123|    50|
|    2|456|    30|
|    3|456|    70|
|    4|789|    80|
+-----+---+------+

Run Code Online (Sandbox Code Playgroud)

计算逻辑：

对于第1行，AMOUNT应该从第一行开始为50。
对于第2行，如果SL_NO-2和1的ID不相同，则需要考虑SL_NO-2的AMOUNT（即-30）。否则为SL_NO的AMOUNT-1（即-50）
对于第3行，如果SL_NO-3和2的ID不相同，则需要考虑SL_NO-3的AMOUNT（即-70）。否则为SL_NO的AMOUNT-2（即-30）

其他行也需要遵循相同的逻辑。

预期产量：

+-----+---+------+
|SL_NO| ID|AMOUNT|
+-----+---+------+
|    1|123|    50|
|    2|456|    30|
|    3|456|    30|
|    4|789|    80|
+-----+---+------+

Run Code Online (Sandbox Code Playgroud)

请帮忙。

Answer 1

Psi*_*dom 8

您可以lag与结合使用when.otherwise，这是一个演示：

import org.apache.spark.sql.expressions.Window

val w = Window.orderBy($"SL_NO")
dataset.withColumn("AMOUNT", 
    when($"ID" === lag($"ID", 1).over(w), lag($"AMOUNT", 1).over(w)).otherwise($"AMOUNT")
).show

+-----+---+------+
|SL_NO| ID|AMOUNT|
+-----+---+------+
|    1|123|    50|
|    2|456|    30|
|    3|456|    30|
|    4|789|    80|
+-----+---+------+

Run Code Online (Sandbox Code Playgroud)

注意：由于此示例不使用任何分区，因此在实际数据中可能会出现性能问题，如果您的问题可以由某些变量进行分区，这可能会有所帮助，Window.orderBy($"SL_NO").partitionBy($"ID")具体取决于您的实际问题以及ID是否一起排序。

“ 1”是移动量。例如，您可以移动2或3等。由'1'移出的'50，30，70，80'将为'null，50，30，70'，由'2`移出将为'null，null，50，30'。 (3认同)

归档时间：	8 年，5 月前
查看次数：	4595 次
最近记录：	7 年，1 月前