Python pandas忽略NaN的唯一值

rag*_*esz 6 python null group-by unique pandas

我想uniquegroupby聚合中使用,但我不想nanunique结果中使用.

示例数据框:

df = pd.DataFrame({'a': [1, 2, 1, 1, pd.np.nan, 3, 3], 'b': [0,0,1,1,1,1,1],
    'c': ['foo', pd.np.nan, 'bar', 'foo', 'baz', 'foo', 'bar']})

       a  b    c
0 1.0000  0  foo
1 2.0000  0  NaN
2 1.0000  1  bar
3 1.0000  1  foo
4    nan  1  baz
5 3.0000  1  foo
6 3.0000  1  bar
Run Code Online (Sandbox Code Playgroud)

而且groupby:

df.groupby('b').agg({'a': ['min', 'max', 'unique'], 'c': ['first', 'last', 'unique']})
Run Code Online (Sandbox Code Playgroud)

结果是:

       a                             c                      
     min    max           unique first last           unique
b                                                           
0 1.0000 2.0000       [1.0, 2.0]   foo  foo       [foo, nan]
1 1.0000 3.0000  [1.0, nan, 3.0]   bar  bar  [bar, foo, baz]
Run Code Online (Sandbox Code Playgroud)

但我想要它没有nan:

       a                        c                      
     min    max      unique first last           unique
b                                                           
0 1.0000 2.0000  [1.0, 2.0]   foo  foo            [foo]
1 1.0000 3.0000  [1.0, 3.0]   bar  bar  [bar, foo, baz]
Run Code Online (Sandbox Code Playgroud)

我怎样才能做到这一点?当然,我有几列要聚合,每列需要不同的聚合函数,所以我不想unique一个接一个地进行聚合,而是与其他聚合分开.

谢谢!

Ian*_*anS 16

定义一个功能:

def unique_non_null(s):
    return s.dropna().unique()
Run Code Online (Sandbox Code Playgroud)

然后在聚合中使用它:

df.groupby('b').agg({
    'a': ['min', 'max', unique_non_null], 
    'c': ['first', 'last', unique_non_null]
})
Run Code Online (Sandbox Code Playgroud)

要么 :

df.dropna().groupby('b').agg({'a': ['min', 'max', 'unique'], 'c': ['first', 'last', 'unique']})
Run Code Online (Sandbox Code Playgroud)


zip*_*ipa 5

这将满足您的需要:

df.fillna(method='ffill').groupby('b').agg({'a': ['min', 'max', 'unique'], 'c': ['first', 'last', 'unique']})
Run Code Online (Sandbox Code Playgroud)

因为您使用min,max并且unique重复的值与您无关。


Flo*_*oor 2

2020 年 11 月 23 日更新

这个答案很糟糕,不要使用这个。请参考@IanS的回答。

早些时候

尝试ffill

df.ffill().groupby('b').agg({'a': ['min', 'max', 'unique'], 'c': ['first', 'last', 'unique']})
Run Code Online (Sandbox Code Playgroud)
      加州                 
  第一个 最后一个 唯一 最小 最大 唯一
乙                                                  
0 foo foo [foo] 1.0 2.0 [1.0, 2.0]
1 bar bar [bar, foo, baz] 1.0 3.0 [1.0, 3.0]

如果 Nan 是该组的第一个元素,则上述解决方案将失效。

  • 谢谢大家,我认为 [Bharath shetty](/sf/users/336045671/) 有最简单和Pythonic 的解决方案。再次感谢!! (2认同)