小编Ben*_*Ami的帖子

根据先前的值和行 Pyspark 填充列

我有一个包含 5 列组、日期、a、b 和 c 的 spark 数据框,我想执行以下操作:

给定 df

group    date      a    b      c
  a     2018-01    2    3     10
  a     2018-02    4    5     null
  a     2018-03    2    1     null
Run Code Online (Sandbox Code Playgroud)

预期产出

group    date      a    b      c
  a     2018-01    2    3     10
  a     2018-02    4    5     10*3+2=32
  a     2018-03    2    1     32*5+4=164
Run Code Online (Sandbox Code Playgroud)

对于每组,通过 b * c + a 计算 c,并将输出用作下一行的 c。

我尝试使用滞后和窗口函数,但找不到正确的方法。

apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
109
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1