pandas:填充组内的缺失值

Question

pandas:填充组内的缺失值

我有一些来自实验的数据,并且在每个试验中都有一些单独的值,被我们包围NA,我想填写整个试验:

df = pd.DataFrame({'trial': [1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3], 
    'cs_name': [np.nan, 'A1', np.nan, np.nan, np.nan, np.nan, 'B2', 
                np.nan, 'A1', np.nan, np.nan, np.nan]})
Out[177]: 
   cs_name  trial
0      NaN      1
1       A1      1
2      NaN      1
3      NaN      1
4      NaN      2
5      NaN      2
6       B2      2
7      NaN      2
8       A1      3
9      NaN      3
10     NaN      3
11     NaN      3

Run Code Online (Sandbox Code Playgroud)

我能同时使用,填补了整个试验中这些值bfill()和ffill(),但我不知道是否有更好的方式来实现这一目标.

df['cs_name'] = df.groupby('trial')['cs_name'].ffill()
df['cs_name'] = df.groupby('trial')['cs_name'].bfill()

Run Code Online (Sandbox Code Playgroud)

预期产量:

   cs_name  trial
0       A1      1
1       A1      1
2       A1      1
3       A1      1
4       B2      2
5       B2      2
6       B2      2
7       B2      2
8       A1      3
9       A1      3
10      A1      3
11      A1      3

Run Code Online (Sandbox Code Playgroud)

Answer 1

And*_*den 13

另一种方法是使用first_valid_index和transform:

In [11]: g = df.groupby('trial')

In [12]: g['cs_name'].transform(lambda s: s.loc[s.first_valid_index()])
Out[12]: 
0     A1
1     A1
2     A1
3     A1
4     B2
5     B2
6     B2
7     B2
8     A1
9     A1
10    A1
11    A1
Name: cs_name, dtype: object

Run Code Online (Sandbox Code Playgroud)

这应该比使用ffill然后使用bfill更有效...

并使用它来更改cs_name列:

df['cs_name'] = g['cs_name'].transform(lambda s: s.loc[s.first_valid_index()])

Run Code Online (Sandbox Code Playgroud)

注意:我认为有一个方法来获取pandas中的第一个非null对象,numpy这是一个开放的请求,我认为目前没有方法(我可能是错的!). ..

Answer 2

小智 5

如果您想避免在某些组仅包含 NaN 时出现的错误，您可以执行以下操作（请注意，我更改了 df，因此 Trial=1 的组只有 Nan）：

df = pd.DataFrame({'trial': [1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3,1,1], 
'cs_name': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, 'B2', np.nan, 
'A3', np.nan, np.nan, np.nan, np.nan,np.nan]})

g = data.groupby('trial')

g['cs_name'].transform(lambda s: 'No values to aggregate' if 
    pd.isnull(s).all() == True else s.loc[s.first_valid_index()])

df['cs_name'] = g['cs_name'].transform(lambda s: 'No values to aggregate' if 
    pd.isnull(s).all() == True else s.loc[s.first_valid_index()])`

Run Code Online (Sandbox Code Playgroud)

这样，当程序找到特定组的所有 NaN 而不是错误时，您可以输入“没有要聚合的值”（或您想要的任何值）。

希望这可以帮助：）

费德里科

归档时间：	12 年，5 月前
查看次数：	7006 次
最近记录：	7 年，11 月前