我有一个用例,我需要对来自多个文件的数百万条记录进行模糊匹配.我确定了两种算法:Jaro-Winkler和Levenshtein编辑距离.
当我开始探索两者时,我无法理解两者之间的确切差异.似乎Levenshtein给出了两个字符串之间的编辑数量,而Jaro-Winkler给出了0.0到1.0之间的匹配分数.我不明白算法.由于我需要使用任何一种算法,我需要知道算法性能的确切差异.
algorithm performance jaro-winkler levenshtein-distance
algorithm ×1
jaro-winkler ×1
levenshtein-distance ×1
performance ×1