小编Fed*_*ner的帖子

字符串相似度 - > Levenshtein距离

我正在使用Levenshtein算法来找到两个字符串之间的相似性.这是我正在制作的计划中非常重要的一部分,因此它需要有效.问题是该算法没有找到类似的以下示例:

CONAIR
AIRCON

该算法将给出6的距离.因此,对于6个字母的单词(您查看具有最高字母数量的单词),差异为100%=>相似度为0%.

我需要找到一种方法来找到两个字符串之间的相似之处,同时还要考虑像我之前提到的那样的情况.

我可以使用更好的算法吗?或者你们推荐我什么?

编辑:我也研究了"Damerau-Levenshtein"算法,它增加了换位.问题是这个转置仅适用于相邻字符(而不适用于多个字符).

string algorithm similarity levenshtein-distance

26
推荐指数
2
解决办法
9612
查看次数