合并火花数据框中的行
我有如下数据
ID Name Passport Country License UpdatedtimeStamp
1 Ostrich 12345 - ABC 11-02-2018
1 - - - BCD 10-02-2018
1 Shah 12345 - - 12-02-2018
2 PJ - ANB a 10-02-2018
Run Code Online (Sandbox Code Playgroud)
所需的输出是
ID Name Passport Country License UpdatedtimeStamp
1 Shah 12345 - ABC 12-02-2018
2 PJ - ANB a 10-02-2018
Run Code Online (Sandbox Code Playgroud)
基本上,相同的数据ID应该合并,并且最新更新而不是null记录应该在输出中,如果所有值都是null,那么null应该保留..
请建议...另外,建议不要使用 SparkSQLWindow函数,因为我需要它非常快