使用Spark 1.5.1,
我一直在尝试用我的DataFrame的一列的最后一个已知观测值来填充空值。
可以从空值开始,在这种情况下,我将使用第一个已知的观察向后填充该空值。但是,如果这也使代码复杂化,则可以跳过这一点。
在这篇文章中,zero323提供了一个针对Scala的解决方案,用于解决非常相似的问题。
但是,我不了解Scala,也无法在Pyspark API代码中“翻译”它。可以用Pyspark做到吗?
谢谢你的帮助。
下面是一个简单的示例输入示例:
| cookie_ID | Time | User_ID
| ------------- | -------- |-------------
| 1 | 2015-12-01 | null
| 1 | 2015-12-02 | U1
| 1 | 2015-12-03 | U1
| 1 | 2015-12-04 | null
| 1 | 2015-12-05 | null
| 1 | 2015-12-06 | U2
| 1 | 2015-12-07 | null
| 1 | 2015-12-08 | U1
| 1 …Run Code Online (Sandbox Code Playgroud)