是否有适用于一系列浮标的 Levenshtein 距离版本？

Question

是否有适用于一系列浮标的 Levenshtein 距离版本？

thp*_*oss 3 algorithm signal-processing similarity information-theory levenshtein-distance

我想计算可以具有不同长度的时间序列数据段之间的相似性。在寻找相似性度量时，我想考虑长度和价值的差异。我认为 Levenshtein distance 对此会很好，只要它适用于一系列浮点数而不是字符串。

这个问题解释了当被替换的整数值的差异无关紧要时，如何将 Levenshtein distance 与整数列表一起使用。在这种情况下，值的差异很重要，较大的差异应该受到更多的惩罚（我正在使用浮点数）。

当然，我对完成类似事情的其他相似性指标持开放态度，我只是认为 Levenshtein 距离已经非常接近我想要的了。

例子：

(0.22, 0.8, 1.2, 3.89)
(0.2, 0.61, 9.2)

比较第一个元素的惩罚较小，下一个元素的惩罚稍大，然后第三个元素的惩罚较大，最后一个元素的删除惩罚。

Answer 1

bad*_*der 5

我认为 Levenshtein 距离不适合这个。因为与算术差异或欧几里德距离的简单度量相比，它的计算成本相当可观。

在您的问题中，问题似乎是一个相似性函数的定义，该函数结合了内容差异和长度差异（时间序列片段）。

在任何情况下，您最好询问signal-processing和information-theory标签，因为肯定会为您的案例建立一个既定的指标/相似度函数。Levenshtein 的“编辑距离”本质上适用于字母 / NLP，在您的情况下，我只会推荐数量信息。一个互相关可能是你正在寻找的东西。

归档时间：	5 年，9 月前
查看次数：	177 次
最近记录：	5 年，9 月前