如何在Spark中"密集"一个数据框

lse*_*ohn 2 scala apache-spark apache-spark-sql

我有一个数据框看起来像:

item_id  week_id  sale amount
1           1         10
1           2         12
1           3         15
2           1         4
2           2         7
2           3         9
Run Code Online (Sandbox Code Playgroud)

我想将此数据帧转换为新的数据框,如下所示:

item_id   week_1     week_2     week_3
1          10          12         15
2          4            7          9
Run Code Online (Sandbox Code Playgroud)

这可以在R中轻松完成,但我不知道如何使用Scala使用Spark API.

Psi*_*dom 5

您可以使用groupBy.pivot然后汇总sale_amount列,在这种情况下,如果每个组合中不超过一行,您可以从item和week的每个组合ID中获取第一个值:

df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+
Run Code Online (Sandbox Code Playgroud)

如果有针对的每一种组合多行您可以使用其他聚合函数item_idweek_id总和,例如:

df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+
Run Code Online (Sandbox Code Playgroud)

要获取正确的列名,可以在week_id透视之前转换列:

import org.apache.spark.sql.functions._

(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
    groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)

+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
|      1|    10|    12|    15|
|      2|     4|     7|     9|
+-------+------+------+------+
Run Code Online (Sandbox Code Playgroud)