如何使用熊猫聚合具有空值的布尔字段？

Question

如何使用熊猫聚合具有空值的布尔字段？

我是第一次使用 Pandas，但在聚合方面遇到了一些问题。我有一个包含三个计算字段的数据框，由这样的应用语句添加：

dataset['calculated_field'] = dataset.apply(
    lambda row: calculation_function(
        row['field1'],
        row['field2']
    ),
    axis = 1
)

Run Code Online (Sandbox Code Playgroud)

计算字段是布尔值，但有一个问题。它们可以包含空值。

我试图找到布尔列的平均值，每个平均值都忽略该列的空字段。

我试过这样的事情：

resultset = dataset.groupby(['grouping_field'])[['calculated_field','calculated_field_2','calculated_field_3']].mean()

Run Code Online (Sandbox Code Playgroud)

问题在于，由于 True/False/None 布尔值是“对象”类型，pandas 将列完全作为“讨厌”列删除。.

但是，我无法将该列转换为 bool，因为它会使空值变为“False”

我还尝试了长路由并为每个聚合创建了 3 个单独的数据帧，因此我可以删除空值并转换为 bool（可以聚合）：

dataset_for_field1 = dataset.dropna(subset = ['calculated_field']).copy()
dataset_for_field1['calculated_field'] = dataset_for_field1['calculated_field'].astype('bool')

result_for_field1 = dataset_for_field1.groupby(['grouping_field'])['calculated_field'].mean()

Run Code Online (Sandbox Code Playgroud)

这给了我我正在寻找的数据，但是在三个单独的数据框中。

有没有办法用每列的平均值获得一个数据框，而忽略空值？

Answer 1

piR*_*red 4

将它们转换为数字列。意志None将成为NaN，Trues将成为1，Falses将成为0。转换整个数据帧的一种便捷方法是将pd.to_numeric参数errors设置为ignore。这将使分组列保持不变，因为它会在继续时出错。

考虑数据框df

df = pd.DataFrame(dict(
        gcol=list('aaaabbbb'),
        clc1=[True, False, True, None] * 2,
        clc2=[True, False, True, False] * 2,
        clc3=[True, True, True, True] * 2,
        clc4=[False, None, None, True]* 2
    ))

Run Code Online (Sandbox Code Playgroud)

这就是转换为数字的样子

df.apply(pd.to_numeric, errors='ignore')

   clc1   clc2  clc3  clc4 gcol
0   1.0   True  True   0.0    a
1   0.0  False  True   NaN    a
2   1.0   True  True   NaN    a
3   NaN  False  True   1.0    a
4   1.0   True  True   0.0    b
5   0.0  False  True   NaN    b
6   1.0   True  True   NaN    b
7   NaN  False  True   1.0    b

Run Code Online (Sandbox Code Playgroud)

将其与后续内容一起使用groupby应该会得到您想要的结果。

df.apply(pd.to_numeric, errors='ignore').groupby('gcol').mean()

          clc1  clc2  clc3  clc4
gcol                            
a     0.666667   0.5   1.0   0.5
b     0.666667   0.5   1.0   0.5

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，10 月前
查看次数：	3698 次
最近记录：	8 年，10 月前