数据集是pandas数据帧.这是sklearn.cluster.KMeans
km = KMeans(n_clusters = n_Clusters)
km.fit(dataset)
prediction = km.predict(dataset)
Run Code Online (Sandbox Code Playgroud)
这就是我如何决定哪个实体属于哪个集群:
for i in range(len(prediction)):
cluster_fit_dict[dataset.index[i]] = prediction[i]
Run Code Online (Sandbox Code Playgroud)
这就是数据集的外观:
A 1 2 3 4 5 6
B 2 3 4 5 6 7
C 1 4 2 7 8 1
...
Run Code Online (Sandbox Code Playgroud)
其中A,B,C是指数
这是使用k-means的正确方法吗?