cs9*_*s95 7 python multi-index dataframe pandas
基于这个问题.
Run Code Online (Sandbox Code Playgroud)df = pandas.DataFrame([[2001, "Jack", 77], [2005, "Jack", 44], [2001, "Jill", 93]],columns=['Year','Name','Value']) Year Name Value 0 2001 Jack 77 1 2005 Jack 44 2 2001 Jill 93对于每个唯一的名称,我想保留具有最大年份值的行.在上面的例子中,我想获得该表
Run Code Online (Sandbox Code Playgroud)Year Name Value 0 2005 Jack 44 1 2001 Jill 93
我尝试用groupby+(apply)解决这个问题:
df.groupby('Name', as_index=False)\
.apply(lambda x: x.sort_values('Value').head(1))
Year Name Value
0 0 2001 Jack 44
1 2 2001 Jill 93
Run Code Online (Sandbox Code Playgroud)
不是最好的方法,但我对发生的事情更感兴趣,为什么.结果MultiIndex如下所示:
MultiIndex(levels=[[0, 1], [0, 2]],
labels=[[0, 1], [0, 1]])
Run Code Online (Sandbox Code Playgroud)
我不是在寻找一种解决方法.我实际上更有兴趣知道为什么会发生这种情况,以及如何在不改变方法的情况下阻止它.
IIUC,使用group_keys=False:
df.groupby('Name', group_keys=False).apply(lambda x: x.sort_values('Value').head(1))
Run Code Online (Sandbox Code Playgroud)
输出:
Year Name Value
1 2005 Jack 44
2 2001 Jill 93
Run Code Online (Sandbox Code Playgroud)