use*_*055 5 algorithm statistics levenshtein-distance
我有两个文本文件,我想比较.我做的是:
我想计算这两个文本文件之间的平均相似度,但是我无法提供任何有意义的值 - 显然算术平均值(所有距离之和[标准化]除以比较次数)是一个坏主意.
如何解释这样的结果?
编辑:距离值已标准化.
alz*_*mar 13
levenshtein距离具有最大值,即最大值.两个输入字符串的长度.它不会变得更糟.因此,对于两个串a和b的归一化相似性指数(0 =差,1 =匹配)可以被计算为1-距离(a,b)/ max(a.length,b.length).
从文件A中取一个句子.你说你要将它与文件B的每个句子进行比较.我猜你正在寻找具有最小距离的B中的句子(即最高相似度指数).
只需计算所有那些"最小相似性指数"的平均值.这应该可以粗略估计两个文本的相似性.
但是,是什么让你认为两个相似的文本可能会将他们的句子改组?我个人的意见是你还应该引入停用词列表,同义词等等.
不过:请同时检查三元组匹配,这可能是您正在寻找的另一种好方法.
归档时间: |
|
查看次数: |
8329 次 |
最近记录: |