任何人都能解释一下WEKA中K-Means聚类的输出实际意味着什么.
例如
kMeans
Number of iterations: 9
Within cluster sum of squared errors: 9434.911100488926
Missing values globally replaced with mean/mode
Cluster centroids:
Cluster#
Attribute Full Data 0 1
(400) (310) (90)
=================================================
competency134 0.0425 0.0548 0
competency207 0.0425 0.0548 0
competency263 0.01 0.0129 0
competency264 0.01 0.0129 0
competency282 0.01 0.0129 0
competency289 0.01 0.0129 0
Run Code Online (Sandbox Code Playgroud)
列中的数字实际意味着什么,它表示表格上方的聚类质心,但是如何确定两个聚类的质心是什么?
如果有人能解释这些数字意味着什么,我将非常感激.
如果有人有任何想法如何完成对所发现的聚类的轮廓评估,这也将是很好的.
谢谢
我正在尝试创建一个循环遍历列表的脚本.
我需要查看能力标识符的有限列表(400)(例如124,129等 - 正常的整数)
然后我有一本字典记录了每个用户的能力.密钥是用户名,每个密钥的值是整数列表(即用户具有哪些能力)
例如
User x - [124, 198, 2244 ...]
User Y - [129, 254, 198, 2244 ...]
Run Code Online (Sandbox Code Playgroud)
我希望编制一个矩阵,突出显示每个能力与其他所有能力一起出现的频率 - 邻接矩阵.
例如,在以上示例中,能力198已经两次出现,具有能力2244.而能力254和124从未一起发生过.
我目前正在使用此代码:
fe = []
count = 0
competency_matches = 0
for comp in competencies_list:
common_competencies = str("")
for comp2 in competencies_list:
matches = int(0)
for person in listx:
if comp and comp2 in d1[person]:
matches = matches + 1
else:
matches = matches
common_competencies = str(common_competencies) + str(matches) + ","
fe.append(common_competencies)
print fe
print count …Run Code Online (Sandbox Code Playgroud)