是否有适用于一系列浮标的 Levenshtein 距离版本?

thp*_*oss 3 algorithm signal-processing similarity information-theory levenshtein-distance

我想计算可以具有不同长度的时间序列数据段之间的相似性。在寻找相似性度量时,我想考虑长度和价值的差异。我认为 Levenshtein distance 对此会很好,只要它适用于一系列浮点数而不是字符串。

这个问题解释了当被替换的整数值的差异无关紧要时,如何将 Levenshtein distance 与整数列表一起使用。在这种情况下,值的差异很重要,较大的差异应该受到更多的惩罚(我正在使用浮点数)。

当然,我对完成类似事情的其他相似性指标持开放态度,我只是认为 Levenshtein 距离已经非常接近我想要的了。

例子:

  1. (0.22, 0.8, 1.2, 3.89)
  2. (0.2, 0.61, 9.2)

比较第一个元素的惩罚较小,下一个元素的惩罚稍大,然后第三个元素的惩罚较大,最后一个元素的删除惩罚。

bad*_*der 5

我认为 Levenshtein 距离不适合这个。因为与算术差异或欧几里德距离的简单度量相比,它的计算成本相当可观。

在您的问题中,问题似乎是一个相似性函数的定义,该函数结合了内容差异和长度差异(时间序列片段)。

在任何情况下,您最好询问signal-processinginformation-theory标签,因为肯定会为您的案例建立一个既定的指标/相似度函数。Levenshtein 的“编辑距离”本质上适用于字母 / NLP,在您的情况下,我只会推荐数量信息。一个互相关可能是你正在寻找的东西。