相关疑难解决方法(0)

Pyspark：使用DataFrame的最后观察结果进行正向填充

使用Spark 1.5.1，

我一直在尝试用我的DataFrame的一列的最后一个已知观测值来填充空值。

可以从空值开始，在这种情况下，我将使用第一个已知的观察向后填充该空值。但是，如果这也使代码复杂化，则可以跳过这一点。

在这篇文章中，zero323提供了一个针对Scala的解决方案，用于解决非常相似的问题。

但是，我不了解Scala，也无法在Pyspark API代码中“翻译”它。可以用Pyspark做到吗？

谢谢你的帮助。

下面是一个简单的示例输入示例：

| cookie_ID | Time | User_ID | ------------- | -------- |------------- | 1 | 2015-12-01 | null | 1 | 2015-12-02 | U1 | 1 | 2015-12-03 | U1 | 1 | 2015-12-04 | null | 1 | 2015-12-05 | null | 1 | 2015-12-06 | U2 | 1 | 2015-12-07 | null | 1 | 2015-12-08 | U1 | 1 …
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark spark-dataframe

Vil*_*llo

2017 05-23

6
推荐指数

4
解决办法

5641
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1

spark-dataframe ×1

Pyspark：使用DataFrame的最后观察结果进行正向填充

标签 统计

标签统计