小编Dav*_*son的帖子

Pyspark:观察到 pyspark 数据帧中缺失值的插值

我正在尝试使用未完全填充且相当大的 spark 清理时间序列数据集。

我想做的是转换以下数据集

Group | TS          |  Value
____________________________
A     | 01-01-2018  |  1
A     | 01-02-2018  |  2
A     | 01-03-2018  |  
A     | 01-04-2018  |  
A     | 01-05-2018  |  5
A     | 01-06-2018  |  
A     | 01-07-2018  |  10
A     | 01-08-2018  |  11
Run Code Online (Sandbox Code Playgroud)

并将其转换为以下内容

Group | TS          |  Value>
____________________________
A     | 01-01-2018  |  1
A     | 01-02-2018  |  2
A     | 01-03-2018  |  3
A     | 01-04-2018  |  4
A     | 01-05-2018  |  5
A …
Run Code Online (Sandbox Code Playgroud)

apache-spark-sql pyspark pyspark-sql

4
推荐指数
2
解决办法
1686
查看次数

标签 统计

apache-spark-sql ×1

pyspark ×1

pyspark-sql ×1