lse*_*ohn 2 scala apache-spark apache-spark-sql
我有一个数据框看起来像:
item_id week_id sale amount
1 1 10
1 2 12
1 3 15
2 1 4
2 2 7
2 3 9
Run Code Online (Sandbox Code Playgroud)
我想将此数据帧转换为新的数据框,如下所示:
item_id week_1 week_2 week_3
1 10 12 15
2 4 7 9
Run Code Online (Sandbox Code Playgroud)
这可以在R中轻松完成,但我不知道如何使用Scala使用Spark API.
您可以使用groupBy.pivot
然后汇总sale_amount列,在这种情况下,如果每个组合中不超过一行,您可以从item和week的每个组合ID中获取第一个值:
df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id| 1| 2| 3|
+-------+---+---+---+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+---+---+---+
Run Code Online (Sandbox Code Playgroud)
如果有针对的每一种组合多行您可以使用其他聚合函数item_id
和week_id
的总和,例如:
df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id| 1| 2| 3|
+-------+---+---+---+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+---+---+---+
Run Code Online (Sandbox Code Playgroud)
要获取正确的列名,可以在week_id
透视之前转换列:
import org.apache.spark.sql.functions._
(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)
+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
| 1| 10| 12| 15|
| 2| 4| 7| 9|
+-------+------+------+------+
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
146 次 |
最近记录: |