EmJ*_*EmJ 4 python time-series dtw
我有 6 个时间序列值,如下所示。
import numpy as np
series = np.array([
[0., 0, 1, 2, 1, 0, 1, 0, 0],
[0., 1, 2, 0, 0, 0, 0, 0, 0],
[1., 2, 0, 0, 0, 0, 0, 1, 1],
[0., 0, 1, 2, 1, 0, 1, 0, 0],
[0., 1, 2, 0, 0, 0, 0, 0, 0],
[1., 2, 0, 0, 0, 0, 0, 1, 1]])
Run Code Online (Sandbox Code Playgroud)
假设,我想获取动态时间扭曲的距离矩阵来执行聚类。我dtaidistance为此使用了库,如下所示。
from dtaidistance import dtw
ds = dtw.distance_matrix_fast(series)
Run Code Online (Sandbox Code Playgroud)
我得到的输出如下。
array([[ inf, 1.41421356, 2.23606798, 0. , 1.41421356, 2.23606798],
[ inf, inf, 1.73205081, 1.41421356, 0. , 1.73205081],
[ inf, inf, inf, 2.23606798, 1.73205081, 0. ],
[ inf, inf, inf, inf, 1.41421356, 2.23606798],
[ inf, inf, inf, inf, inf, 1.73205081],
[ inf, inf, inf, inf, inf, inf]])
Run Code Online (Sandbox Code Playgroud)
在我看来,我得到的输出是错误的。例如,据我了解输出的对角线值应该是0(因为它们是理想的匹配)。
我想知道我哪里做错了以及如何解决它。我也很高兴使用其他 python 库得到答案。
如果需要,我很乐意提供更多详细信息。
一切都是正确的。根据文档:
结果以矩阵表示形式存储。由于仅需要上三角矩阵,因此该表示使用比所需更多的内存。
所有对角元素均为 0,下三角矩阵与在对角线上镜像的上三角矩阵相同。由于所有这些值都可以从上三角矩阵中扣除,因此它们不会显示在输出中。
您甚至可以使用该compact=True参数仅获取连接到一维数组中的上对角矩阵中的值。
您可以将结果转换为完整矩阵,如下所示:
ds[ds==np.inf] = 0
ds += dt.T
Run Code Online (Sandbox Code Playgroud)