自从将代码从一台计算机移植到另一台计算机以来,我一直遇到一个非常奇怪的问题。我在此系统上使用的熊猫版本为0.25.1,但是不确定我以前使用的熊猫版本。
问题如下:
我创建一个简单的未排序(模拟)数据框,在该数据框上我要对值进行排序并向前填充所有NaN值。
In [1]: import pandas as pd
...: import numpy as np
In [2]: test = pd.DataFrame({"group" : ["A", "A", "A", "B", "B", "B", "C", "C"],
...: "count" : [2, 3, 1, 2, 1, 3, 1, 2],
...: "value" : [10, np.nan, 30, np.nan, 19, np.nan, 25, np.nan]})
In [3]: test
Out[3]:
group count value
0 A 2 10.0
1 A 3 NaN
2 A 1 30.0
3 B 2 NaN
4 B 1 19.0
5 B 3 …Run Code Online (Sandbox Code Playgroud) 在 PySpark 中,是否可以获得特定窗口中的总行数?
现在我正在使用:
w = Window.partitionBy("column_to_partition_by")
F.count(col("column_1")).over(w)
Run Code Online (Sandbox Code Playgroud)
但是,这只能提供增量行数。我需要的是该特定窗口分区中的总行数。谁能告诉我这个命令吗?