在 groupby-apply 操作期间附加列

Question

在 groupby-apply 操作期间附加列

语境

我有几组数据（由带数据框的 3 列定义），并且想要执行线性拟合和每组，然后附加估计值（具有拟合的下限和上限）。

问题

执行操作后，我收到与最终与原始数据帧的形状相关的错误

演示问题的示例：

from io import StringIO       # modern python
#from StringIO import StringIO # old python
import numpy
import pandas

def fake_model(group, formula):
    # add the results to the group
    modeled = group.assign(
        fit=numpy.random.normal(size=group.shape[0]),
        ci_lower=numpy.random.normal(size=group.shape[0]),
        ci_upper=numpy.random.normal(size=group.shape[0])
    )

    return modeled

raw_csv = StringIO("""\
location,days,era,chemical,conc
MW-A,2415,modern,"Chem1",5.4
MW-A,7536,modern,"Chem1",0.21
MW-A,7741,modern,"Chem1",0.15
MW-A,2415,modern,"Chem2",33.0
MW-A,2446,modern,"Chem2",0.26
MW-A,3402,modern,"Chem2",0.18
MW-A,3626,modern,"Chem2",0.26
MW-A,7536,modern,"Chem2",0.32
MW-A,7741,modern,"Chem2",0.24
""")

data = pandas.read_csv(raw_csv)

modeled = (
    data.groupby(by=['location', 'era', 'chemical'])
        .apply(fake_model, formula='conc ~ days')
        .reset_index(drop=True)
)

Run Code Online (Sandbox Code Playgroud)

这引发了一个很长的追溯，其关键是：

[snip]   
C:\Miniconda3\envs\puente\lib\site-packages\pandas\core\internals.py in construction_error(tot_items, block_shape, axes, e)
   3880         raise e
   3881     raise ValueError("Shape of passed values is {0}, indices imply {1}".format(
-> 3882         passed,implied))
   3883 
   3884 

ValueError: Shape of passed values is (8, 9), indices imply (8, 6)

Run Code Online (Sandbox Code Playgroud)

我知道我添加了三列，因此形状为 (8, 9) vs (8, 6)。

我不明白的是，如果我以最轻微的方式检查数据帧子组，则不会引发上述错误：

def fake_model2(group, formula):
    _ = group.name
    return fake_model(group, formula)

modeled = (
    data.groupby(by=['location', 'era', 'chemical'])
        .apply(fake_model2, formula='conc ~ days')
        .reset_index(drop=True)
)

print(modeled)

Run Code Online (Sandbox Code Playgroud)

其中产生：

  location  days     era chemical   conc  ci_lower  ci_upper       fit
0     MW-A  2415  modern    Chem1   5.40 -0.466833 -0.599039 -1.143867
1     MW-A  7536  modern    Chem1   0.21 -1.790619 -0.532233 -1.356336
2     MW-A  7741  modern    Chem1   0.15  1.892256 -0.405768 -0.718673
3     MW-A  2415  modern    Chem2  33.00  0.428811  0.259244 -1.259238
4     MW-A  2446  modern    Chem2   0.26 -1.616517 -0.955750 -0.727216
5     MW-A  3402  modern    Chem2   0.18 -0.300749  0.341106  0.602332
6     MW-A  3626  modern    Chem2   0.26 -0.232240  1.845240  1.340124
7     MW-A  7536  modern    Chem2   0.32 -0.416087 -0.521973 -1.477748
8     MW-A  7741  modern    Chem2   0.24  0.958202  0.634742  0.542667

Run Code Online (Sandbox Code Playgroud)

题

我的解决方法感觉太笨拙，无法在任何实际应用程序中使用。有没有更好的方法来应用我的模型并将最适合的估计值包含在较大数据框中的每个组中？

Answer 1

Tom*_*ger 4

是的，存在一个非 hacky 的解决方法

In [18]: gr = data.groupby(['location', 'era', 'chemical'], group_keys=False)

In [19]: gr.apply(fake_model, formula='')
Out[19]:
  location  days     era chemical   conc  ci_lower  ci_upper       fit
0     MW-A  2415  modern    Chem1   5.40 -0.105610 -0.056310  1.344210
1     MW-A  7536  modern    Chem1   0.21  0.574092  1.305544  0.411960
2     MW-A  7741  modern    Chem1   0.15 -0.073439  0.140920 -0.679837
3     MW-A  2415  modern    Chem2  33.00  1.959547  0.382794  0.544158
4     MW-A  2446  modern    Chem2   0.26  0.484376  0.400111 -0.450741
5     MW-A  3402  modern    Chem2   0.18 -0.422490  0.323525  0.520716
6     MW-A  3626  modern    Chem2   0.26 -0.093855 -1.487398  0.222687
7     MW-A  7536  modern    Chem2   0.32  0.124983 -0.484532 -1.162127
8     MW-A  7741  modern    Chem2   0.24 -1.622693  0.949825 -1.049279

Run Code Online (Sandbox Code Playgroud)

这实际上.reset_index也为您节省了:)

group_keys是错误背后的罪魁祸首。大熊猫身上的虫子可能来自concat每组的常客。就group_keys=True这样

[('MW-A', 'modern', 'Chem1'), ('MW-A', 'modern', 'Chem2')]

Run Code Online (Sandbox Code Playgroud)

这是熊猫没有想到的。这闻起来像熊猫的一个错误，但还没有挖掘更多来证实。

归档时间：	9 年，9 月前
查看次数：	450 次
最近记录：	9 年，9 月前