Ste*_*ven 6 php mysql algorithm levenshtein-distance
我有一个MySQL数据库表,包含大约1000家商店的信息.现在我将通过上传Excel电子表格来导入更多商店,我正在努力避免重复.
但这是我的问题.
目前我正在将数据导入临时表.现在我想知道将进口商店与现有商店进行比较的最佳方法是什么.
我的计划是通过每一行并比较商店.
有没有人有这种数据比较的经验?
更新
感谢您的回答.
将用于比较的字段是:
我正在考虑以下几点:
选择name = Lavenshtein和country = country的行.
这样我只需要处理一个小清单.
然后我可以更彻底地比较姓名和地址.
Levenshtein-distance就是这样做的方法,可以避免手动输入。但实际的实施将取决于某种有关数据的先验知识。比如你预计拼写中有多少错误。
例如,假设它是一个高质量的数据,并且您只期望拼写错误,您可以基于以下条件生成匹配条件:1)单词数是否相同?2) 这些单词的序列 3) 名称中每个单词的编辑距离允许错误的小阈值。
当名称不明确时,可以通过检查具有类似条件的地址来加强条件,反之亦然。