Pandas 模糊检测重复项

Geo*_*ler 5 python fuzzy-search pandas locality-sensitive-hash record-linkage

如何在 pandas 中使用模糊匹配来检测重复行(有效)

在此输入图像描述

如何在没有将 row_i 转换为 String() 然后将其与所有其他列进行比较的巨大 for 循环的情况下查找一列与所有其他列的重复项?

fgr*_*egg 6

不是 pandas 特有的,但在 python 生态系统中,重复数据删除 python 库似乎可以满足您的需求。特别是,它允许您单独比较行的每一列,然后将信息组合成匹配​​的单个概率分数。