我正在开发一个大型文本分类项目,我们将文本数据(简单消息)存储在HBase中.
我们有两个问题,首先我们想使用HBase作为Mahout分类器的来源,即Bayers和Random Forests.
其次,我们希望能够存储在HBase中生成的模型,而不是使用内存方法(InMemoryBayesDatastore),但随着我们的集合的增长,我们遇到了内存利用率问题,并希望测试HBase作为一种可行的替代方案.
使用带有Mahout的HBase似乎很少有材料浮动,如果可以将它用作潜在的数据源.我在Java中使用Mahout 0.6核心API,它具有InMemory数据存储区.
做一点挖掘我相信那里有一个HBase Bayers数据存储组件 - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore请参见旧版JavaDoc:http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout -core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
但是,看看最新的文档看起来这个功能已经消失了......?https://builds.apache.org/job/Mahout-Quality/javadoc/
我想知道是否仍然可以使用HBase作为Bayers和RandomForests的数据源,这是否有任何先前的用例?
谢谢!
我一直在阅读有关使用Solr和Mahout开发推荐系统的信息.
据我了解,他们处理两个不同的问题.
(或StackOverflow中的"相关"功能)
我的问题,
他们习惯于解决两个不同的问题吗?
它们可以整合吗?
我读过Mahout做离线处理和可扩展.这是否意味着Solr无法扩展?
是否可以使用Apache mahout而不依赖于Hadoop.
我想在单个计算机上使用mahout算法,只在我的Java项目中包含mahout库,但我根本不想使用hadoop,因为无论如何我将在单个节点上运行.
那可能吗?
Mahout in Action中描述了归一化可以略微提高准确性.任何人都可以解释原因,谢谢!
我正在阅读我可以从lucene索引创建mahout向量,该索引可用于应用mahout聚类算法. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text
我想在我的Lucene索引中的文档中应用K-means聚类算法,但是我不清楚如何应用这个算法(或层次聚类)来提取这些文档的有意义的聚类.
在这个页面中http://cwiki.apache.org/confluence/display/MAHOUT/k-Means 说该算法接受两个输入目录:一个用于数据点,一个用于初始簇.我的数据点是文件?我如何"声明"这些是我的文件(或它们的载体),只需要它们并进行聚类?
抱歉我的语法很差
谢谢
我想在Ruby on Rails上的项目中使用Apache Mahout来实现建议和协作过滤.特别是我的要求是:
如果它可以轻松地与rails集成并满足我的要求,我愿意使用任何其他解决方案(除了mahout).
recommendation-engine ruby-on-rails ruby-on-rails-plugins mahout
我想知道是否有可用的开源推荐引擎?它应该建议亚马逊和Netflix之类的东西.我听说过一个名为Apache Mahout - Taste的框架.我下周试试.如果你能分享你宝贵的想法,那将是很棒的.
我试图解决一个简单的分类问题.
问题:
我有一组文本,我必须根据内容对它们进行分类.
使用Mahout的解决方案:
我知道我必须将输入转换为序列文件以生成模型.是的,我能够做到这一点.现在,我如何对测试数据进行分类?20News示例仅测试正确性.但是,我想做实际的分类.
我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类.
我目前是Apache Mahout的非常随意的用户,我正在考虑购买Mahout in Action一书.不幸的是,我很难理解这本书的价值 - 并且看到它是Manning Early Access Program一书(因此目前仅作为beta版电子书提供),我可以我自己去书店看看.
任何人都可以推荐这个作为一个好的(或不太好的)指南,以加快Mahout,和/或其他可以补充Mahout网站的来源的速度?
我开始学习一些关于大数据的东西,主要关注预测分析,为此我想要实现一个案例研究:
我有一个服务器健康信息的数据集,每5秒轮询一次.我想显示检索到的数据,但更重要的是:我想运行先前构建的机器学习模型并显示结果(关于服务器崩溃的警报).
机器学习模型将由机器学习专家构建,因此完全超出范围.我的工作是将机器学习模型集成到运行模型的平台中,并在一个漂亮的仪表板中显示结果.
我的问题是这个系统的"全局"架构:我看到所有的部分已经存在(cloudera + mahout)但是我缺少一个简单的集成解决方案来满足我的所有需求而且我不相信艺术状态是做一些自定义软件......
那么,任何人都可以对这样的生产系统有所了解(用预测分析显示数据)吗?这个参考架构?教程/文档?
笔记:
我调查了一些相关的技术:cloudera/hadoop,pentaho,mahout和weka.我知道Pentaho能够存储大数据并对该数据进行特殊的Weka分析.使用cloudera和Impala,数据专家也可以运行即席查询并分析数据,但这不是我的目标.我希望我的系统运行ML模型,并在检索到的数据旁边的漂亮仪表板中显示结果.我正在寻找一个已经允许这种用法而不是自定义构建的平台.
我专注于Pentaho,因为它似乎有一个很好的机器学习集成,但我读到的每个教程更多的是关于"ad-hoc"ML分析而不是实时.任何关于该主题的教程都将受到欢迎.
我不介意开源或商业解决方案(试用)
根据具体情况,这可能不是大数据:更多的"传统"解决方案也受到欢迎.
这里的实时也是一个广义的术语:如果ML模型具有良好的性能,每5秒运行一次就足够了.
ML模型是静态的(不是实时更新或改变其行为)
我不是在为我的例子寻找一个定制的应用程序,因为我的重点是全局:具有预测分析通用平台的大数据.