les*_*hka 6 ocr metrics levenshtein-distance
我正在尝试用字典创建一个光学字符识别系统.
事实上我还没有实现的字典=)
我听说有基于Levenstein距离的简单度量,它考虑了不同符号之间的不同距离.例如,'N'和'H'彼此非常接近,d("剧院","TNEATRE")应该小于d("THEATRE","TOEATRE"),这是使用基本Levenstein距离不可能的.
请帮您点一下这个指标.
坦克引起注意.
这可能就是您正在寻找的内容:http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance(并且链接中包含一些工作代码)
更新:
http://nlp.stanford.edu/IR-book/html/htmledition/edit-distance-1.html