小编Cod*_*C4U的帖子

使用 drop_duplicates (Pandas DataFrame) 时如何获取删除的行？

我使用 pandas.DataFrame.drop_duplicates() 删除所有列值都相同的行的重复项，但是为了数据质量分析，我需要生成一个包含删除的重复行的 DataFrame。如何确定要删除哪些行？我想到将原始 DF 与没有重复项的新 DF 进行比较，并识别丢失的唯一索引，但有没有更好的方法来做到这一点？

例子：

import pandas as pd

data =[[1,'A'],[2,'B'],[3,'C'],[1,'A'],[1,'A']]

df = pd.DataFrame(data,columns=['Numbers','Letters'])

df.drop_duplicates(keep='first',inplace=True) # This will drop rows 3 and 4

# Now how to create a dataframe with the duplicate records dropped only?

Run Code Online (Sandbox Code Playgroud)

python duplicates pandas drop-duplicates

Cod*_*C4U

2020 08-16

1
推荐指数

1
解决办法

3775
查看次数