（熊猫）根据顺序无关紧要的子集删除重复项

Question

（熊猫）根据顺序无关紧要的子集删除重复项

从这个 df 去的正确方法是什么：

>>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']})
>>> df
      a     b
0  jeff   bob
1   bob  jeff
2  jill  mike

Run Code Online (Sandbox Code Playgroud)

对此：

>>> df2
      a     b
0  jeff   bob
2  jill  mike

Run Code Online (Sandbox Code Playgroud)

根据“a”和“b”中的项目删除重复的行，而不考虑它们的特定列。

我可以使用 lambda 表达式组合一个解决方案来创建掩码，然后根据掩码列删除重复项，但我认为必须有比这更简单的方法：

>>> df['c'] = df[['a', 'b']].apply(lambda x: ''.join(sorted((x[0], x[1]), \
 key=lambda x: x[0]) + sorted((x[0], x[1]), key=lambda x: x[1] )), axis=1)
>>> df.drop_duplicates(subset='c', keep='first', inplace=True)
>>> df = df.iloc[:,:-1]

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ted*_*rou 6

我认为您可以独立对每一行进行排序，然后使用重复来查看要删除哪些行。

dupes = df.apply(lambda x: x.sort_values().values, axis=1).duplicated()
df[~dupes]

Run Code Online (Sandbox Code Playgroud)

一种更快的获得欺骗的方法。感谢@DSM。

dupes = df.T.apply(sorted).T.duplicated()

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	1763 次
最近记录：	8 年，8 月前