如何在pandas中使用argmin和groupby

Question

如何在pandas中使用argmin和groupby

假设我有一个像这样的pandas数据帧:

Run Code Online (Sandbox Code Playgroud)

我想知道,对于每个类别('cat'的每个值),值最接近给定值的位置是什么,比如说5.5.我可以减去我的目标值并取绝对值,给我这样的东西:

  cat  val  val_delt
0   a    1       4.5
1   a    6       0.5
2   a   12       6.5
3   b    2       3.5
4   b    5       0.5
5   b   11       5.5
6   c    4       1.5
7   c   22      16.5

Run Code Online (Sandbox Code Playgroud)

但是我不知道下一步要去哪里.我的第一个想法是使用argmin()和groupby(),但这给出了一个错误:

In [375]: df.groupby('cat').val_delt.argmin()
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-375-a2c3dbc43c50> in <module>()
----> 1 df.groupby('cat').val_delt.argmin()

TypeError: 'Series' object is not callable

Run Code Online (Sandbox Code Playgroud)

当然,我可以在标准python中提出一些可怕的hacky事情,我迭代cat的所有值,然后选择与该值对应的数据子集,执行argmin操作然后找出原始数据帧中的哪个位置排了.但是必须有一种更优雅的方式来做到这一点.

我想要的输出是这样的:

Run Code Online (Sandbox Code Playgroud)

或者至少包含相关信息的一些结构(例如 - {'a':1,'b':4,'c':6}).如果我找回索引值或索引位置,我不在乎,但我需要两个中的一个.我不关心回到这个值 - 一旦我有了索引子集,我总能得到它.

Answer 1

Mar*_*ero 11

这里的所有答案都有些正确，但没有一个以简洁、美观和Pythonic的方式做到这一点。我在这里留下了一个明确的方法来做到这一点。

>>> indx = df.groupby('cat')['val_delt'].idxmin()
>>> df.loc[indx]

  cat  val  val_delt
1   a    6       0.5
4   b    5       0.5
6   c    4       1.5

Run Code Online (Sandbox Code Playgroud)

Answer 2

HYR*_*YRY 6

argmin() 不是agg函数,您可以使用apply来获取每个组的最近索引:

txt = """  cat  val
0   a    1
1   a    6
2   a   12
3   b    2
4   b    5
5   b   11
6   c    4
7   c   22"""

import io

df = pd.read_csv(io.BytesIO(txt), delim_whitespace=True, index_col=0)
df["val_delt"] = (df.val - 5.5).abs()
idx = df.groupby("cat").apply(lambda df:df.val_delt.argmin())
df.ix[idx, :]

Run Code Online (Sandbox Code Playgroud)

输出:

cat  val  val_delt
1   a    6       0.5
4   b    5       0.5
6   c    4       1.5

Run Code Online (Sandbox Code Playgroud)

Answer 3

JSh*_*arm 6

你不需要申请。

idxmin足够了。只需确保您已设置所需的最小值即可。

>>> df['val_delt'] = (df.val - 5.5).abs()
>>> df.set_index('val').groupby('cat').idxmin()
     val_delt
cat          
a           6
b           5
c           4

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年前
查看次数：	2543 次
最近记录：	6 年，3 月前