HBase和Mahout - 使用HBase作为Mahout的数据存储/源 - 分类

Nig*_*olf 15 hadoop hbase classification machine-learning mahout

我正在开发一个大型文本分类项目,我们将文本数据(简单消息)存储在HBase中.

我们有两个问题,首先我们想使用HBase作为Mahout分类器的来源,即Bayers和Random Forests.

其次,我们希望能够存储在HBase中生成的模型,而不是使用内存方法(InMemoryBayesDatastore),但随着我们的集合的增长,我们遇到了内存利用率问题,并希望测试HBase作为一种可行的替代方案.

使用带有Mahout的HBase似乎很少有材料浮动,如果可以将它用作潜在的数据源.我在Java中使用Mahout 0.6核心API,它具有InMemory数据存储区.

做一点挖掘我相信那里有一个HBase Bayers数据存储组件 - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore请参见旧版JavaDoc:http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout -core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

但是,看看最新的文档看起来这个功能已经消失了......?https://builds.apache.org/job/Mahout-Quality/javadoc/

我想知道是否仍然可以使用HBase作为Bayers和RandomForests的数据源,这是否有任何先前的用例?

谢谢!

Sea*_*wen 3

这不是直接可能的,不。您可以恢复这个旧的实现,然后掸掉灰尘,并可能让它正常工作,而不会有太多麻烦。它确实被删除了,以精简和集中项目。

当然,您也可以考虑以某种形式导出数据,并将其添加到直接支持的表示或存储中。

一般来说,您可以将 HBase 与 Mahout 结合使用,因为 Mahout(大部分)使用 Hadoop,并且 Hadoop 可以使用 HBase。这里的情况并非如此。这里有一个更直接的集成点,但已被弃用。