集群间和集群内距离

Tan*_*iel 5 cluster-analysis

我找到了以下用于集群间和集群内距离的公式,但我不确定我是否理解它们的工作原理。

在此处输入图片说明

集群间距离

在此处输入图片说明

上面的公式中不应该有平方根吗?

集群间和集群内:

在此处输入图片说明 在此处输入图片说明

为什么第 j 个索引是从 N+1 开始的?而不是从 1 到 N2?

哪一个是正确的?或者有什么等价物吗?或者我应该为簇间距离寻找质心之间的距离?看起来比较简单。簇内距离呢?

我发现维基百科公式http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation更难理解。

我需要计算这个距离以便对颜色进行适当的分组以创建减少的调色板,所以我认为这些距离越准确,分组就越准确(公式而不是簇间距离的质心距离之间的距离)。向量是 3 维的(RGB 分量)。

Ano*_*sse 2

很多算法并没有真正使用“距离”。

例如,k 均值可最小化方差,即您在此处看到的平方和。现在平方和欧几里德距离的平方,因此可以说该算法也试图最小化欧几里德距离;但该算法的“自然”公式不使用欧几里德距离,而是使用平方和。如果我没记错的话,沃德聚类也是如此,您应该使用方差而不是欧几里德距离来计算它。

请注意,如果您最小化 z^2,并且 z 不能为负数,那么您也最小化了 z。

另请参阅: https: //stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering