DataError:没有使用平均聚合函数而不是总和的数字类型?

RK1*_*RK1 5 python pandas pandas-groupby

我想知道是否有人可以使用 agg() 帮助解释以下行为

import numpy as np
import pandas as pd
import string
Run Code Online (Sandbox Code Playgroud)

初始化数据帧

df = pd.DataFrame(data=[list(string.ascii_lowercase)[0:5]*2,list(range(1,11)),list(range(11,21))]).T
df.columns = columns=['g','c1','c2']

df.sort_values(['g']).head(5)

g   c1  c2
0   a   1   11
5   a   6   16
1   b   2   12
6   b   7   17
2   c   3   13
Run Code Online (Sandbox Code Playgroud)

例如,我在按 g 进行分组时对 c1 和 c2 求和并求平均值

无数据错误场景:

f = { 'c1' : lambda g: df.loc[g.index].c2.sum() + g.sum(), 'c2' : lambda g: (df.loc[g.index].c1.sum() + g.sum())/(g.count()+df.loc[g.index].c1.count())} 
df = df.groupby('g',as_index=False).agg(f)
Run Code Online (Sandbox Code Playgroud)

数据类型错误:

rnm_cols = dict(sum='Sum', mean='Mean') #, std='Std')
df = df.set_index(['g']).stack().groupby('g').agg(rnm_cols.keys()).rename(columns=rnm_cols)
Run Code Online (Sandbox Code Playgroud)

我得到 -> DataError: No numeric types to aggregate

我知道如果我使用下面的方法初始化我的数据框,我可以避免这个问题:

df[['c1','c2']] = df[['c1','c2']].apply(lambda x: pd.to_numeric(x, errors='coerce'))
Run Code Online (Sandbox Code Playgroud)

但是我试图理解为什么与 mean 函数聚合会提供这样的错误?

a_g*_*est 7

这是由于GroupBy对象处理不同聚合方法的方式。事实上summean它们的处理方式不同(有关更多详细信息,请参见下文)。

但最重要的是,它mean仅适用于数据框中不存在的数字类型:

>>> df.dtypes
g     object
c1    object
c2    object
dtype: object
Run Code Online (Sandbox Code Playgroud)

通过应用pd.to_numeric您将它们转换为数字类型和agg作品。

但让我们仔细看看:

GroupBy.mean

此函数调用调度到self._cython_agg_general检查数字类型的哪个,如果它没有找到任何(您的示例就是这种情况),它会引发一个DataError. 尽管调用self._cython_agg_general被包裹在 atry/except的情况下,GroupByError但它只是重新引发并DataError继承自GroupByError. 因此例外。

GroupBy.sum

此函数以不同的方式定义,即此处(通过此函数)。该包装函数类似分派给self._cython_agg_general裹在try/except,但它不会增加对具体条款GroupByError秒(不知道为什么,虽然,也许这就是为开发一个很好的问题,这样他们就可以统一的行为GroupBy对象)。因为self._cython_agg_general再次提出DataError它将进入except Exception它回退到的子句self.aggregate。从这里你可以通过十几个额外的函数调用来追踪它,但最后它只会添加系列的单个项目(它们存储为objects 但在 Python 中添加没有问题,因为它们int实际上是s)。

概括

所以这一切都归结为两个聚合函数处理异常的不同方式;mean重新加注DataErrorsum没有。“为什么”对我来说仍然是一个悬而未决的问题。

也可以看看