使用Pandas为每个过滤器标识列中的最接近值

Sco*_*lin 4 python boolean group-by closest pandas

我有一个包含类别和值的数据框.我需要找到最接近值的每个类别中的值.我认为我很接近,但在将argsort的结果应用于原始数据帧时,我无法获得正确的输出.

例如,如果输入是在输出下面的代码定义应该只有(a, 1, True),(b, 2, True),(c, 2, True)和所有其他isClosest Values应该是假.

如果多个值最接近,那么它应该是标记的第一个值.

这是我有的代码,但我无法正确地重新应用到数据框.我会喜欢一些指示.

df = pd.DataFrame()
df['category'] = ['a', 'b', 'b', 'b', 'c', 'a', 'b', 'c', 'c', 'a']
df['values'] = [1, 2, 3, 4, 5, 4, 3, 2, 1, 0]
df['isClosest'] = False

uniqueCategories = df['category'].unique()
for c in uniqueCategories:
    filteredCategories = df[df['category']==c]    
    sortargs = (filteredCategories['value']-2.0).abs().argsort()
    #how to use sortargs so that we set column in df isClosest=True if its the closest value in each category to 2.0?
Run Code Online (Sandbox Code Playgroud)

ayh*_*han 6

您可以创建一个绝对差异列:

df['dif'] = (df['values'] - 2).abs()

df
Out: 
  category  values  dif
0        a       1    1
1        b       2    0
2        b       3    1
3        b       4    2
4        c       5    3
5        a       4    2
6        b       3    1
7        c       2    0
8        c       1    1
9        a       0    2
Run Code Online (Sandbox Code Playgroud)

然后groupby.transform用来检查每组的最小值是否等于你计算的差值:

df['is_closest'] = df.groupby('category')['dif'].transform('min') == df['dif']

df
Out: 
  category  values  dif is_closest
0        a       1    1       True
1        b       2    0       True
2        b       3    1      False
3        b       4    2      False
4        c       5    3      False
5        a       4    2      False
6        b       3    1      False
7        c       2    0       True
8        c       1    1      False
9        a       0    2      False
Run Code Online (Sandbox Code Playgroud)

df.groupby('category')['dif'].idxmin()还会为您提供每个类别最接近的值的索引.您也可以使用它进行映射.

供选择:

df.loc[df.groupby('category')['dif'].idxmin()]
Out: 
  category  values  dif
0        a       1    1
1        b       2    0
7        c       2    0
Run Code Online (Sandbox Code Playgroud)

作业:

df['is_closest'] = False
df.loc[df.groupby('category')['dif'].idxmin(), 'is_closest'] = True
df
Out: 
  category  values  dif is_closest
0        a       1    1       True
1        b       2    0       True
2        b       3    1      False
3        b       4    2      False
4        c       5    3      False
5        a       4    2      False
6        b       3    1      False
7        c       2    0       True
8        c       1    1      False
9        a       0    2      False
Run Code Online (Sandbox Code Playgroud)

这些方法之间的区别在于,如果您根据差异检查相等性,则在关联的情况下,对于所有行,您将获得True.但是,idxmin它将在第一次出现时返回True(每个组只返回一个).