当我使用时,我有一个大约 52000 行的数据框,其中有一些重复
df_drop_duplicates()
Run Code Online (Sandbox Code Playgroud)
我丢失了大约 1000 行,但我不想删除这些行我想知道哪些是重复行
你可以使用duplicated:
df[df.duplicated()]
Run Code Online (Sandbox Code Playgroud)
您可以keep从文档中为您想要的内容指定参数:
保持:{'first', 'last', False},默认为'first'
first: 将重复项标记为True除了第一次出现。last: 将重复项标记True为最后一次出现的除外。False: 将所有重复项标记为True.