小编Vil*_*llo的帖子

Pyspark:使用DataFrame的最后观察结果进行正向填充

使用Spark 1.5.1,

我一直在尝试用我的DataFrame的一列的最后一个已知观测来填充空值

可以从空值开始,在这种情况下,我将使用第一个已知的观察向后填充该空值。但是,如果这也使代码复杂化,则可以跳过这一点。

在这篇文章中zero323提供了一个针对Scala的解决方案,用于解决非常相似的问题。

但是,我不了解Scala,也无法在Pyspark API代码中“翻译”它。可以用Pyspark做到吗?

谢谢你的帮助。

下面是一个简单的示例输入示例:

| cookie_ID     | Time       | User_ID   
| ------------- | --------   |------------- 
| 1             | 2015-12-01 | null 
| 1             | 2015-12-02 | U1
| 1             | 2015-12-03 | U1
| 1             | 2015-12-04 | null   
| 1             | 2015-12-05 | null     
| 1             | 2015-12-06 | U2
| 1             | 2015-12-07 | null
| 1             | 2015-12-08 | U1
| 1 …
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark spark-dataframe

6
推荐指数
4
解决办法
5641
查看次数