如何识别Python pandas Dataframe中重复行的第一次出现

Question

如何识别Python pandas Dataframe中重复行的第一次出现

我有一个pandas DataFrame,其中包含一组列的重复值.例如:

df = pd.DataFrame({'Column1': {0: 1, 1: 2, 2: 3}, 'Column2': {0: 'ABC', 1: 'XYZ', 2: 'ABC'}, 'Column3': {0: 'DEF', 1: 'DEF', 2: 'DEF'}, 'Column4': {0: 10, 1: 40, 2: 10})

In [2]: df
Out[2]: 
   Column1 Column2 Column3  Column4 is_duplicated  dup_index
0        1     ABC     DEF       10         False          0
1        2     XYZ     DEF       40         False          1
2        3     ABC     DEF       10          True          0

Run Code Online (Sandbox Code Playgroud)

第(1)行和第(3)行相同.基本上,Row(3)是Row(1)的副本.

我正在寻找以下输出:

Is_Duplicate,包含行是否重复[可以通过在数据帧列(Column2,Column3和Column4)上使用"重复"方法来完成]

Dup_Index 重复行的原始索引.

In [3]: df
Out[3]: 
   Column1 Column2 Column3  Column4  Is_Duplicate  Dup_Index
0        1     ABC     DEF       10         False          0
1        2     XYZ     DEF       40         False          1
2        3     ABC     DEF       10          True          0

Run Code Online (Sandbox Code Playgroud)

Answer 1

And*_*den 14

duplicated第一列有一个DataFrame方法:

In [11]: df.duplicated(['Column2', 'Column3', 'Column4'])
Out[11]: 
0    False
1    False
2     True

In [12]: df['is_duplicated'] = df.duplicated(['Column2', 'Column3', 'Column4'])

Run Code Online (Sandbox Code Playgroud)

要做第二个你可以尝试这样的事情:

In [13]: g = df.groupby(['Column2', 'Column3', 'Column4'])

In [14]: df1 = df.set_index(['Column2', 'Column3', 'Column4'])

In [15]: df1.index.map(lambda ind: g.indices[ind][0])
Out[15]: array([0, 1, 0])

In [16]: df['dup_index'] = df1.index.map(lambda ind: g.indices[ind][0])

In [17]: df
Out[17]: 
   Column1 Column2 Column3  Column4 is_duplicated  dup_index
0        1     ABC     DEF       10         False          0
1        2     XYZ     DEF       40         False          1
2        3     ABC     DEF       10          True          0

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，8 月前
查看次数：	9237 次
最近记录：	12 年前