小编ImN*_*his的帖子

向前填充新行以说明缺少的日期

我目前有一个由变量“聚合器”分组为每小时增量的数据集。这个每小时数据中存在差距，我理想情况下想要做的是用映射到 x 列中变量的前一行向前填充行。

我已经看到一些使用 PANDAS 解决类似问题的解决方案，但理想情况下，我想了解如何最好地使用 pyspark UDF 来解决这个问题。

我最初在 PANDAS 中考虑过类似以下的事情，但也努力实现这一点，以填补忽略聚合器作为第一遍：

df = df.set_index(keys=[df.timestamp]).resample('1H', fill_method='ffill')

Run Code Online (Sandbox Code Playgroud)

但理想情况下，我想避免使用 PANDAS。

在下面的示例中，我缺少两行每小时数据（标记为 MISSING）。

df = df.set_index(keys=[df.timestamp]).resample('1H', fill_method='ffill')

Run Code Online (Sandbox Code Playgroud)

此处的预期输出如下：

| timestamp            | aggregator |
|----------------------|------------|
| 2018-12-27T09:00:00Z | A          |
| 2018-12-27T10:00:00Z | A          |
| MISSING              | MISSING    |
| 2018-12-27T12:00:00Z | A          |
| 2018-12-27T13:00:00Z | A          |
| 2018-12-27T09:00:00Z | B          |
| 2018-12-27T10:00:00Z | B          |
| 2018-12-27T11:00:00Z | B          |
| MISSING              | MISSING    |
| 2018-12-27T13:00:00Z | B …

Run Code Online (Sandbox Code Playgroud)

pyspark pyspark-sql

ImN*_*his

lucky-day

2
推荐指数

1
解决办法

1481
查看次数

标签统计

pyspark ×1

pyspark-sql ×1

向前填充新行以说明缺少的日期

标签 统计

小编ImN_his的帖子

标签统计