使用Apache Mahout对数据进行分类

vkr*_*ris 11 apache hadoop machine-learning mahout

我试图解决一个简单的分类问题.

问题:
我有一组文本,我必须根据内容对它们进行分类.

使用Mahout的解决方案:
我知道我必须将输入转换为序列文件以生成模型.是的,我能够做到这一点.现在,我如何对测试数据进行分类?20News示例仅测试正确性.但是,我想做实际的分类.
我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类.

Ted*_*ing 3

我讨厌插入自己的工作,但我们在 Mahout in Action 中放入了有关分类的整个部分。理论、代码示例、案例研究实践,甚至整个服务器场实施。

您可以在http://www.manning.com/owen/获取预发行版本

  • IMO,书中有关分类的部分可以改进。关于分类的部分冗长、不清楚,而且常常不合逻辑。可以有更多的java编码示例和更少的bash shell示例。分类部分如果写得更像介绍章节会更好:显示分类文件的格式,如何读入它们,如何将它们加载到分类器中,训练完成后,如何使用分类器对新样本进行分类。 (14认同)
  • 我希望 Mahout 有更多更好的文档。机器学习专家很难理解处理管道的结构和代码架构。即使 javadoc 使用了不适当的术语(setGramSize 应该是 setNGramSize),小的语义也会在理解概念和代码方面产生巨大的差异。 (8认同)