熊猫用第一个可用值的一部分填充nan值

Question

熊猫用第一个可用值的一部分填充nan值

我正在尝试使用以下所有nan值中的第一个先前的可用值来替换DataFrame中的nan值。

在下面的示例中：

import pandas as pd
df = [100, None, None, 40, None, 120]
df = pd.DataFrame(df)

Run Code Online (Sandbox Code Playgroud)

我想得到：

[33.33, 33.33, 33.33, 20, 20, 120]

Run Code Online (Sandbox Code Playgroud)

如果我可以找到一种方法来对列中每个值之后的nan值进行计数，那么我可以运行一些计算来实现拆分。

Answer 1

jez*_*ael 5

使用：

import pandas as pd
df = [100, None, None, 40, None, 120]
df = pd.DataFrame(df, columns=['a'])

s = df['a'].ffill() / df.groupby(df['a'].notna().cumsum())['a'].transform('size')
print (s)

0     33.333333
1     33.333333
2     33.333333
3     20.000000
4     20.000000
5    120.000000
Name: a, dtype: float64

Run Code Online (Sandbox Code Playgroud)

详细资料：

您可以通过以下方式将缺失值替换为先前的non NaNs值ffill：

print (df['a'].ffill())
0    100.0
1    100.0
2    100.0
3     40.0
4     40.0
5    120.0
Name: a, dtype: float64

Run Code Online (Sandbox Code Playgroud)

然后比较依据Series.notna并创建分组依据Series.cumsum：

print (df['a'].notna().cumsum())
0    1
1    1
2    1
3    2
4    2
5    3
Name: a, dtype: int32

Run Code Online (Sandbox Code Playgroud)

并获得与原始大小相同的每个组的计数GroupBy.transform：

print (df.groupby(df['a'].notna().cumsum())['a'].transform('size'))
0    3
1    3
2    3
3    2
4    2
5    1
Name: a, dtype: int64

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，5 月前
查看次数：	77 次
最近记录：	6 年，5 月前