luc*_*cif 5 hadoop cluster-analysis k-means mahout
我对爬网的页面(超过25K个文档;个人数据集)进行了集群测试。我已经完成了clusterdump:
$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt
Run Code Online (Sandbox Code Playgroud)
运行集群转储程序后的输出显示为25个元素“ VL-xxxxx {}”:
VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}
Run Code Online (Sandbox Code Playgroud)
如何解释此输出?
简而言之:我正在寻找属于特定集群的文档ID。
的意义是什么 :
0:0.017是否表示“ 0”是属于该集群的文档ID?
我已经在mahout维基页面上阅读过CL,n,c和r的含义。但是,有人可以向我更好地向他们解释,还是可以指向对它进行更详细解释的资源?
抱歉,如果我要问一些愚蠢的问题,但是我是新手,是apache mahout,并将其用作我的课程分配的一部分。