如何使用sickit学习计算k-means特征重要性

liu*_*ang 0 k-means scikit-learn

我使用 scikit-learn 通过 k-means 进行聚类:

from sklearn import cluster 
k = 4
kmeans = cluster.KMeans(n_clusters=k)
Run Code Online (Sandbox Code Playgroud)

但另一个问题是:如何使用 scikit 学习计算 k 均值特征重要性?

JAR*_*ARS 6

不幸的是,据我所知,在 k-means 算法的上下文中没有“特征重要性”这样的东西——至少在理解特征重要性意味着“自动相关性确定”的情况下(如下面的链接所示)。

事实上,k-means 算法平等地对待所有特征,因为聚类过程取决于数据点和聚类中心之间的(未加权的)欧几里德距离。

更一般地,存在执行自动特征选择或自动相关性确定的聚类算法,或用于聚类的通用特征选择方法。一个特定的(和任意的)示例是 Roth 和 Lange,聚类问题中的特征选择,NIPS 2003