小编Dar*_*hah的帖子

合并 Spark Scala Dataframe 中的行

合并火花数据框中的行

我有如下数据

ID  Name    Passport    Country  License    UpdatedtimeStamp
1   Ostrich 12345       -       ABC         11-02-2018
1   -       -           -       BCD         10-02-2018
1   Shah    12345       -       -           12-02-2018
2   PJ      -           ANB     a           10-02-2018
Run Code Online (Sandbox Code Playgroud)

所需的输出是

ID  Name    Passport    Country  License    UpdatedtimeStamp
1   Shah    12345       -       ABC         12-02-2018
2   PJ      -           ANB     a           10-02-2018
Run Code Online (Sandbox Code Playgroud)

基本上,相同的数据ID应该合并,并且最新更新而不是null记录应该在输出中,如果所有值都是null,那么null应该保留..

请建议...另外,建议不要使用 SparkSQLWindow函数,因为我需要它非常快

scala dataframe apache-spark

5
推荐指数
1
解决办法
5399
查看次数

标签 统计

apache-spark ×1

dataframe ×1

scala ×1