小编Cod*_*C4U的帖子

使用 drop_duplicates (Pandas DataFrame) 时如何获取删除的行?

我使用 pandas.DataFrame.drop_duplicates() 删除所有列值都相同的行的重复项,但是为了数据质量分析,我需要生成一个包含删除的重复行的 DataFrame。如何确定要删除哪些行?我想到将原始 DF 与没有重复项的新 DF 进行比较,并识别丢失的唯一索引,但有没有更好的方法来做到这一点?

例子

import pandas as pd

data =[[1,'A'],[2,'B'],[3,'C'],[1,'A'],[1,'A']]

df = pd.DataFrame(data,columns=['Numbers','Letters'])

df.drop_duplicates(keep='first',inplace=True) # This will drop rows 3 and 4

# Now how to create a dataframe with the duplicate records dropped only?

Run Code Online (Sandbox Code Playgroud)

python duplicates pandas drop-duplicates

1
推荐指数
1
解决办法
3775
查看次数

标签 统计

drop-duplicates ×1

duplicates ×1

pandas ×1

python ×1