我希望通过以下方式获得我小组的最后一组:
df.groupby(pd.TimeGrouper(freq='M')).groups[-1]:
Run Code Online (Sandbox Code Playgroud)
但这给出了错误:
密钥错误:-1
使用get_group是无用的,因为我不知道最后一组的值(除非有特定的方法来获得该值?)。我也可能想得到最后 2 组等
我该怎么做呢?
使用 Ed 的示例,您可以切出最后一组。组以正确的顺序迭代(意味着给定的顺序,或排序,由选项确定)。
In [12]: df = pd.DataFrame({'a':['1','2','2','4','5','2'], 'b':np.random.randn(6)})
In [13]: g = df.groupby('a')
In [14]: g.groups
Out[14]: {'1': [0], '2': [1, 2, 5], '4': [3], '5': [4]}
In [15]: import itertools
In [16]: list(itertools.islice(g,len(g)-1,len(g)))
Out[16]:
[('5', a b
4 5 -0.644857)]
Run Code Online (Sandbox Code Playgroud)
您可以调用last它来计算每个组的最后一个值,并使用它iloc来获取行值并使用name属性访问索引组值,可能有更好的方法,但目前还无法弄清楚:
In [170]:
# dummy data
df = pd.DataFrame({'a':['1','2','2','4','5','2'], 'b':np.random.randn(6)})
df
Out[170]:
a b
0 1 0.097176
1 2 -1.400536
2 2 0.352093
3 4 -0.696436
4 5 -0.308680
5 2 -0.217767
In [179]:
gp = df.groupby('a', sort=False)
gp.get_group(df.groupby('a').last().iloc[-1].name)
Out[179]:
a b
4 5 0.608724
In [180]:
df.groupby('a').last().iloc[-2:]
Out[180]:
b
a
4 0.390451
5 0.608724
In [181]:
mult_groups = gp.last().iloc[-2:].index
In [182]:
for gp_val in mult_groups:
print(gp.get_group(gp_val))
a b
3 4 0.390451
a b
4 5 0.608724
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3642 次 |
| 最近记录: |