如何获得GMM集群的代表点？

Question

如何获得GMM集群的代表点？

Rac*_*ael 1 cluster-analysis centroid scikit-learn gmm

我已使用sklearn高斯混合模型算法（GMM）对数据（75000，3）进行了聚类。我有4个集群。我数据的每一点代表一个分子结构。现在，我想获得每个簇的最具代表性的分子结构，据我了解，它们是该簇的质心。到目前为止，我已经尝试使用gmm.means_属性定位在群集中心的点（结构），但是确切的点并不对应于任何结构（我使用numpy.where）。我将需要获取最接近质心的结构的坐标，但是在模块的文档中（http://scikit-learn.org/stable/modules/generation/sklearn），我还没有找到执行此功能的函数。 blend.GaussianMixture.html）。如何获得每个群集的代表性结构？

非常感谢您的帮助，任何建议将不胜感激。

（（由于这是一个通用问题，我发现没有必要添加用于集群或任何数据的代码，请让我知道是否有必要））

Answer 1

Dav*_*ale 5

对于每个聚类，您可以为每个训练点测量其相应的密度，然后选择具有最大密度的点来表示其聚类：

此代码可以作为示例：

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats
from sklearn import mixture

n_samples = 100
C = np.array([[0.8, -0.1], [0.2, 0.4]])

X = np.r_[np.dot(np.random.randn(n_samples, 2), C),
         np.random.randn(n_samples, 2) + np.array([-2, 1]), 
         np.random.randn(n_samples, 2) + np.array([1, -3])]

gmm = mixture.GaussianMixture(n_components=3, covariance_type='full').fit(X)

plt.scatter(X[:,0], X[:, 1], s = 1)

centers = np.empty(shape=(gmm.n_components, X.shape[1]))
for i in range(gmm.n_components):
    density = scipy.stats.multivariate_normal(cov=gmm.covariances_[i], mean=gmm.means_[i]).logpdf(X)
    centers[i, :] = X[np.argmax(density)]
plt.scatter(centers[:, 0], centers[:, 1], s=20)
plt.show()

Run Code Online (Sandbox Code Playgroud)

它将中心绘制为橙色点：

归档时间：	8 年，6 月前
查看次数：	2751 次
最近记录：	6 年，7 月前