如何在熊猫中找到重复项？

Question

当我使用时，我有一个大约 52000 行的数据框，其中有一些重复

df_drop_duplicates()

我丢失了大约 1000 行，但我不想删除这些行我想知道哪些是重复行

Answer 1

你可以使用duplicated：

df[df.duplicated()]

您可以keep从文档中为您想要的内容指定参数：

保持：{'first', 'last', False}，默认为'first'

first: 将重复项标记为True除了第一次出现。

last: 将重复项标记True为最后一次出现的除外。

False: 将所有重复项标记为True.