如何使用存储为CSV的矢量数据在mahout中执行k-means聚类?

Dan*_*n Q 6 k-means mahout

我有一个包含数据向量的文件,其中每行包含逗号分隔的值列表.我想知道如何使用mahout对这些数据执行k-means聚类.wiki中提供的示例提到创建sequenceFiles,但是否则我不确定是否需要进行某种类型的转换才能获得这些sequenceFiles.

Boj*_*ska 8

我建议手动读取CSV文件中的条目,从中创建NamedVectors,然后使用序列文件writer在序列文件中写入向量.从那以后,KMeansDriver运行方法应该知道如何处理这些文件.

序列文件对键值对进行编码,因此键将是样本的ID(它应该是一个字符串),并且值是围绕向量的VectorWritable包装器.

这是一个关于如何执行此操作的简单代码示例:

__CODE__ (这可能是一个实现细节).

  • 第8章是免费样品!http://manning.com/owen/MiA_SampleCh08.pdf (2认同)