命令dist(x,method =“ binary”)如何计算距离矩阵?

Cin*_*hio -1 r distance

我一直在试图解决这个问题,但没有成功。我正在处理带有二进制数据(0和1)的表。我设法使用R函数从数据估计了距离矩阵dist(x,method="binary"),但是我不确定该函数如何精确估计距离矩阵。是否使用Jaccard系数J =(M11)/(M10 + M01 + M11)?

Blu*_*ter 5

在帮助页面上可以轻松找到?dist

此函数计算并返回距离矩阵,该距离矩阵是通过使用指定的距离度量来计算数据矩阵的行之间的距离而得出的。

[...]

二进制:(又名非对称二进制):向量被视为二进制位,因此非零元素为“ on”,零元素为“ off”。距离是其中至少一个开启的位中只有一个开启的位的比例。

这等效于Wikipedia中所述Jaccard距离

雅卡德距离的另一种解释是对称差与联合的大小之比。

用您的符号表示为1-J =(M01 + M10)/(M01 + M10 + M11)。

  • 但是,在至少一个打开的位中,只有一个打开的位的比例与对称差与并集的比率不一样,是吗?后者的分母是完整集的大小,而前者的分母是不是两个都“关闭”的位集的大小? (2认同)