ant*_*eus 7 python duplicates dataframe pandas
我有一个关于在数据框中查找重复项以及使用特定列删除数据帧中的重复项的问题。这是我想要完成的:
是否可以删除重复项但保留前 2 个?
这是我当前名为 df 的数据框的示例,请查看我放在下面的括号注释,以便您了解。
注意:如果 'Roll' = 1 那么我想查看日期列,看看该列中是否有第二个重复的日期...保留这两个并删除任何其他日期。
Date Open High Low Close Roll Dupes
1 19780106 236.00 237.50 234.50 235.50 0 NaN
2 19780113 235.50 239.00 235.00 238.25 0 NaN
3 19780120 238.00 239.00 234.50 237.00 0 NaN
4 19780127 237.00 238.50 235.50 236.00 1 NaN (KEEP)
5 19780203 236.00 236.00 232.25 233.50 0 NaN (KEEP)
6 19780127 237.00 238.50 235.50 236.00 0 NaN (KEEP)
7 19780203 236.00 236.00 232.25 233.50 0 NaN (DELETE)
8 19780127 237.00 238.50 235.50 236.00 0 NaN (DELETE)
9 19780203 236.00 236.00 232.25 233.50 0 NaN (DELETE)
Run Code Online (Sandbox Code Playgroud)
这是目前正在删除欺骗者的内容,但它正在删除所有欺骗者(显然)
df = df.drop_duplicates('Date')
Run Code Online (Sandbox Code Playgroud)
编辑:我忘了提一些东西,我想保留的唯一重复项是如果列 'Roll' = 1 如果确实如此,则保留该行和基于列 'Date' 匹配的下一行
使用head了GROUPBY保持各组中的第一个x项,我认为你想要的完成。
In [52]: df.groupby('Date').head(2)
Out[52]:
Date Open High Low Close Roll
1 19780106 236.0 237.5 234.50 235.50 0
2 19780113 235.5 239.0 235.00 238.25 0
3 19780120 238.0 239.0 234.50 237.00 0
4 19780127 237.0 238.5 235.50 236.00 0
5 19780203 236.0 236.0 232.25 233.50 0
6 19780127 237.0 238.5 235.50 236.00 0
7 19780203 236.0 236.0 232.25 233.50 0
Run Code Online (Sandbox Code Playgroud)
编辑:
In [16]: df['dupe_count'] = df.groupby('Date')['Roll'].transform('max') + 1
In [17]: df.groupby('Date', as_index=False).apply(lambda x: x.head(x['dupe_count'].iloc[0]))
Out[17]:
Date Open High Low Close Roll Dupes dupe_count
0 1 19780106 236.0 237.5 234.50 235.50 0 NaN 1
1 2 19780113 235.5 239.0 235.00 238.25 0 NaN 1
2 3 19780120 238.0 239.0 234.50 237.00 0 NaN 1
3 4 19780127 237.0 238.5 235.50 236.00 1 NaN 2
6 19780127 237.0 238.5 235.50 236.00 0 NaN 2
4 5 19780203 236.0 236.0 232.25 233.50 0 NaN 1
Run Code Online (Sandbox Code Playgroud)
假设Roll只能取值 0 和 1,如果这样做
df.groupby(['Date', 'Roll'], as_index=False).first()
Run Code Online (Sandbox Code Playgroud)
您将得到两行日期,其中一行有Roll = 1,而只有一行日期只有Roll = 0,我认为这就是您想要的。
如果通过as_index=False,则组键不会像您的评论中所讨论的那样出现在索引中。