改进的Levenshtein算法

Mik*_*e D 8 algorithm levenshtein-distance

我最近在我们的搜索引擎数据库中实现了levenshtein算法,但是我们遇到了一个问题.

根据基本的levenshtein

Levenshtein('123456','12x456')与Levenshtein('123456','12345x')的值相同

通常这很好,但对于我的具体问题是不正确的.当有人使用我们的网站时,这是不正确的.电子元件制造商通常制造类似的产品,最后一个字母只有不同之处.如果第一个字母不同,它通常是完全不同的类别.因此,我需要一种算法,该算法认为在单词开头附近的匹配比在后面的那些更有价值,或者换句话说,在开头附近发生的不匹配应该比后面的那些应用更大的惩罚.

如果有人有任何想法,请告诉我.

Rob*_*rco 1

我们遇到了类似的问题并使用了Brew 编辑距离方法

我们使用 Perl,因此使用Text::Brew库。我的同事做了一个关于使用几种不同算法(包括 Brew)的精彩演示。