Col*_*ger 14 algorithm fuzzy-search soundex
按照这个在相关的线程评论,我想知道为什么基于Levenshtein距离方法比探测法更好.
Kei*_*ith 16
Soundex相当原始 - 它最初是为手工计算而开发的.它产生了一个可以比较的密钥.
Soundex适用于西方名称,因为它最初是为美国人口普查数据开发的.它用于语音比较.
Levenshtein距离看两个值并根据它们的相似性产生一个值.它正在寻找丢失或替换的字母.
基本上Soundex更适合发现"施密特"和"史密斯"可能是同一个姓氏.
Levenshtein距离更好地发现用户输错了"Levnshtein";-)