一次将多个函数应用于 Pandas groupby 对象

Question

一次将多个函数应用于 Pandas groupby 对象

zth*_*.nc 4 python group-by dataframe pandas

已经提出了这个问题的变体（请参阅这个问题），但我还没有找到一个好的解决方案，这似乎是groupbyPandas 中的常见用例。

假设我有数据框lasts并且分组依据user：

lasts = pd.DataFrame({'user':['a','s','d','d'],
                   'elapsed_time':[40000,50000,60000,90000],
                   'running_time':[30000,20000,30000,15000],
                   'num_cores':[7,8,9,4]})

Run Code Online (Sandbox Code Playgroud)

我有这些我想要应用的函数groupby_obj（这些函数的作用并不重要，我编写了它们，只需知道它们需要数据框中的多个列）：

def custom_func(group):
    return group.running_time.median() - group.num_cores.mean()

def custom_func2(group):
    return max(group.elapsed_time) -min(group.running_time)

Run Code Online (Sandbox Code Playgroud)

我可以将apply这些函数中的每一个单独地添加到数据帧，然后合并生成的数据帧，但这似乎效率低下，不优雅，我想必须有一个单行解决方案。

我还没有真正找到一个，尽管这篇博客文章（在页面底部搜索“创建一个函数来获取一组统计数据”）建议将这些函数作为字典包装到一个函数中：

def get_stats(group):
    return {'custom_column_1': custom_func(group), 'custom_column_2':custom_func2(group)}

Run Code Online (Sandbox Code Playgroud)

但是，当我运行代码时，我得到的是一列字典结果，groupby_obj.apply(get_stats)而不是列：

user a {'custom_column_1': 29993.0, 'custom_column_2'... d {'custom_column_1': 22493.5, 'custom_column_2'... s {'custom_column_1': 19992.0, 'custom_column_2'... dtype: object
Run Code Online (Sandbox Code Playgroud)
实际上，我想使用一行代码来获得更接近此数据框的内容：

user custom_column_1 custom_column_2 a 29993.0 10000 d 22493.5 75000 s 19992.0 30000
Run Code Online (Sandbox Code Playgroud)
关于改进此工作流程的建议？

Answer 1

Max*_*axU 5

考虑以下方法：

funcs = {
  'running_time': {'rt_med':'median', 'rt_min':'min'},
  'num_cores': {'nc_avg':'mean'},
  'elapsed_time': {'et_max':'max'}
}

x = lasts.groupby('user').agg(funcs)
x.columns = x.columns.droplevel(0)

formulas = """
custom_column_1 = rt_med - nc_avg
custom_column_2 = et_max - rt_min

"""

res = x.eval(formulas, inplace=False).drop(x.columns, 1).reset_index()

Run Code Online (Sandbox Code Playgroud)

结果：

In [145]: res
Out[145]:
  user  custom_column_1  custom_column_2
0    a          29993.0            10000
1    d          22493.5            75000
2    s          19992.0            30000

Run Code Online (Sandbox Code Playgroud)

说明（逐步）：

In [146]: x = lasts.groupby('user').agg(funcs)

In [147]: x
Out[147]:
     running_time        num_cores elapsed_time
           rt_med rt_min    nc_avg       et_max
user
a           30000  30000       7.0        40000
d           22500  15000       6.5        90000
s           20000  20000       8.0        50000

In [148]: x.columns = x.columns.droplevel(0)

In [149]: x
Out[149]:
      rt_med  rt_min  nc_avg  et_max
user
a      30000   30000     7.0   40000
d      22500   15000     6.5   90000
s      20000   20000     8.0   50000

In [150]: x.eval(formulas, inplace=False)
Out[150]:
      rt_med  rt_min  nc_avg  et_max  custom_column_1  custom_column_2
user
a      30000   30000     7.0   40000          29993.0            10000
d      22500   15000     6.5   90000          22493.5            75000
s      20000   20000     8.0   50000          19992.0            30000

In [151]: x.eval(formulas, inplace=False).drop(x.columns, 1)
Out[151]:
      custom_column_1  custom_column_2
user
a             29993.0            10000
d             22493.5            75000
s             19992.0            30000

In [152]: x.eval(formulas, inplace=False).drop(x.columns, 1).reset_index()
Out[152]:
  user  custom_column_1  custom_column_2
0    a          29993.0            10000
1    d          22493.5            75000
2    s          19992.0            30000

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，10 月前
查看次数：	1312 次
最近记录：	8 年，10 月前