对于 PySpark DataFrame 中的每一行,我试图从满足特定条件的第一行获取值:
那就是如果我的数据框看起来像这样:
X | Flag
1 | 1
2 | 0
3 | 0
4 | 0
5 | 1
6 | 0
7 | 0
8 | 0
9 | 1
10 | 0
Run Code Online (Sandbox Code Playgroud)
我想要看起来像这样的输出:
X | Lag_X | Flag
1 | NULL | 1
2 | 1 | 0
3 | 1 | 0
4 | 1 | 0
5 | 1 | 1
6 | 5 | 0
7 | 5 | 0
8 …Run Code Online (Sandbox Code Playgroud)