对分组的pandas数据帧中的行求和并返回NaN

例

import pandas as pd
import numpy as np
d = {'l':  ['left', 'right', 'left', 'right', 'left', 'right'],
     'r': ['right', 'left', 'right', 'left', 'right', 'left'],
     'v': [-1, 1, -1, 1, -1, np.nan]}
df = pd.DataFrame(d)

Run Code Online (Sandbox Code Playgroud)

问题

当分组的数据帧包含值np.NaNI时,希望分组的总和NaN是由skipna=False标志给出的,但是pd.Series.sum也是pd.DataFrame.sum如此

In [235]: df.v.sum(skipna=False)
Out[235]: nan

Run Code Online (Sandbox Code Playgroud)

但是,此行为未反映在pandas.DataFrame.groupby对象中

In [237]: df.groupby('l')['v'].sum()['right']
Out[237]: 2.0

Run Code Online (Sandbox Code Playgroud)

并且不能通过np.sum直接应用该方法强制使用

In [238]: df.groupby('l')['v'].apply(np.sum)['right']
Out[238]: 2.0

Run Code Online (Sandbox Code Playgroud)

解决方法

我可以通过这样做来解决这个问题

check_cols = ['v']
df['flag'] = df[check_cols].isnull().any(axis=1)
df.groupby('l')['v', 'flag'].apply(np.sum).apply(
    lambda x: …

Run Code Online (Sandbox Code Playgroud)

python numpy nan dataframe pandas

Ale*_*ane

lucky-day

7
推荐指数

1
解决办法

1040
查看次数

标签统计

dataframe ×1

nan ×1

numpy ×1

pandas ×1

python ×1

相关疑难解决方法(0)

对分组的pandas数据帧中的行求和并返回NaN

例

问题

解决方法

标签 统计

标签统计