Pandas:如何过滤数据框中出现多次的项目

Nic*_*ick 7 python filter duplicates pandas

我有一个包含重复条目的Pandas DataFrame.有些物品也会列出两次或三次.我想过滤它,以便它只显示列出至少n次的项目.在决赛桌中,所有项目只应显示一次.DataFrame包含3列:[colA,colB,colC].它应该只考虑colB来确定该项是否被多次列出.注意:这不是drop_duplicates.相反,我想丢弃数据帧中少于n次的项目.

最终结果应该只列出每个项目一次.

EdC*_*ica 19

您可以使用value_counts获取项目计数,然后从中构造一个布尔掩码,并使用以下命令引用索引和测试成员资格isin:

In [3]:
df = pd.DataFrame({'a':[0,0,0,1,2,2,3,3,3,3,3,3,4,4,4]})
df

Out[3]:
    a
0   0
1   0
2   0
3   1
4   2
5   2
6   3
7   3
8   3
9   3
10  3
11  3
12  4
13  4
14  4

In [8]:
df[df['a'].isin(df['a'].value_counts()[df['a'].value_counts()>2].index)]

Out[8]:
    a
0   0
1   0
2   0
6   3
7   3
8   3
9   3
10  3
11  3
12  4
13  4
14  4
Run Code Online (Sandbox Code Playgroud)

所以突破以上:

In [9]:
df['a'].value_counts() > 2

Out[9]:
3     True
4     True
0     True
2    False
1    False
Name: a, dtype: bool

In [10]:
# construct a boolean mask
df['a'].value_counts()[df['a'].value_counts()>2]

Out[10]:
3    6
4    3
0    3
Name: a, dtype: int64

In [11]:
# we're interested in the index here, pass this to isin
df['a'].value_counts()[df['a'].value_counts()>2].index

Out[11]:
Int64Index([3, 4, 0], dtype='int64')
Run Code Online (Sandbox Code Playgroud)

编辑

正如用户@JonClements所建议的那样,一个更简单,更快速的方法就是groupby关注filter它并且:

In [4]:
df.groupby('a').filter(lambda x: len(x) > 2)

Out[4]:
    a
0   0
1   0
2   0
6   3
7   3
8   3
9   3
10  3
11  3
12  4
13  4
14  4
Run Code Online (Sandbox Code Playgroud)

编辑2

要为每个重复调用获取一个条目drop_duplicates并传递参数subset='a':

In [2]:
df.groupby('a').filter(lambda x: len(x) > 2).drop_duplicates(subset='a')

Out[2]:
    a
0   0
6   3
12  4
Run Code Online (Sandbox Code Playgroud)