标签: mahout

使用Neo4j作为Mahout数据存储区

有没有人成功地将Apache Mahout与Neo4j集成为数据存储区?如果是这样,涉及多少作品,表现如何?

neo4j mahout

5
推荐指数
1
解决办法
969
查看次数

最近SVM的实施被添加到Mahout中,我计划使用SVM.有人试过吗?

使用Hadoop在Mahout(使用Hadoop进行机器学习)中围绕SVM(支持向量机)进行的任何新开发?最近SVM实施被添加到Mahout中.我打算使用SVM.有人试过吗?互联网上提供的信息非常少.

任何帮助/指导表示赞赏.

hadoop svm mahout

5
推荐指数
1
解决办法
2291
查看次数

将CSV转换为SequenceFile

我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建NamedVectors以用于群集作业.我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors.看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector.我哪里错了?

hadoop mahout sequencefile

5
推荐指数
1
解决办法
7230
查看次数

在mahout 0.8中运行cvb

目前的Mahout 0.8-SNAPSHOT包括用于主题建模的折叠变分贝叶斯(cvb)版本,并删除了潜在Dirichlet分析(lda)方法,因为cvb可以更好地并行化.不幸的是,只有关于如何运行示例和生成有意义输出的lda文档.

因此,我想:

  • 正确处理一些文本
  • 运行cvb的cvb0_local版本
  • 通过查看每个生成主题中的前n个单词来检查结果

mahout lda topic-modeling

5
推荐指数
1
解决办法
4302
查看次数

如何在 mahout 中矢量化文本文件?

我有一个带有 label 和 tweets 的文本文件。

    positive,I love this car
    negative,I hate this book
    positive,Good product.
Run Code Online (Sandbox Code Playgroud)

我需要将每一行转换为向量值。如果我使用seq2sparse命令意味着整个文档被转换为向量,但我需要将每一行转换为向量而不是整个文档。ex : key : positive value : vectorvalue(tweet) 我们如何在 mahout 中实现这一点?


/* 这是我所做的 */

    StringTokenizer str= new StringTokenizer(line,",");
            String label=str.nextToken();
            while (str.hasMoreTokens())
            {
            tweetline =str.nextToken();
            System.out.println("Tweetline"+tweetline);
            StringTokenizer words = new StringTokenizer(tweetline," ");
            while(words.hasMoreTokens()){
            featureList.add(words.nextToken());}
            }
            Vector unclassifiedInstanceVector = new RandomAccessSparseVector(tweetline.split(" ").length);
 FeatureVectorEncoder vectorEncoder = new AdaptiveWordValueEncoder(label);
            vectorEncoder.setProbes(1);
            System.out.println("Feature List: "+featureList);
            for (Object feature: featureList) {
                vectorEncoder.addToVector((String) feature, unclassifiedInstanceVector);
            }
            context.write(new Text("/"+label), new VectorWritable(unclassifiedInstanceVector)); …
Run Code Online (Sandbox Code Playgroud)

java vectorization bigdata mahout

5
推荐指数
1
解决办法
1695
查看次数

用Hadoop扩展Cassandra和Mahout

是否可以配置Mahout在执行Hadoop上的推荐作业时从Cassandra集群检索输入数据?

我已经找到了关于这个主题的一些资源 - 请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但是那里描述的指示有似乎不起作用(在mahout-0.6和mahout-0.7上都试过).对于istance itemIDIndexPath变量似乎不存在于RecommenderJob类中,也不存在于它扩展的抽象类中.

hadoop cassandra mahout

5
推荐指数
1
解决办法
395
查看次数

Py4J的开销比Jython和JPype大

在从Django应用程序(python)中搜索运行Java代码的选项后,我发现Py4J对我而言是最佳选择。我尝试了Jython,JPype和Python子进程,它们每个都有一定的局限性:

  • Jython。我的应用程序在python中运行。
  • JPype越野车。您可以在它再次无法启动之后立即启动JVM。
  • Python子进程。由于常规的控制台调用,因此无法在Python和Java之间传递Java对象。

在Py4J网站上写道:

在性能方面,Py4J依赖于套接字,因此比以前的两个解决方案(Jython和JPype)都有更大的开销,但是如果性能对您的应用程序至关重要,那么从Python程序访问Java对象可能不是最好的主意。

在我的应用程序中性能至关重要,因为我正在使用机器学习框架Mahout。我的问题是:由于Py4J网关服务器,Mahout的运行速度也会变慢吗?否则,这意味着从Python函数调用Java方法的速度会变慢(在后者的情况下,Mahout的性能不会成为问题,我可以使用Py4J)。

python java mahout py4j

5
推荐指数
1
解决办法
4302
查看次数

如何在Apache Spark中进行多标签分类

我想对大数据集进行多标签文本分类,并且似乎大数据机器学习工具(例如Apache Mahout或Spark MLLib)目前不支持该分类。我想知道是否有人对大数据集进行过多标签分类?有没有计划在不久的将来在Mahout或Spark中集成多标签分类?

mahout apache-spark

5
推荐指数
1
解决办法
495
查看次数

Mahout - 简单的分类问题

我正在尝试构建一个简单的模型,可以将点分类为 2D空间的2个分区:

  1. 我通过指定几个点和它们所属的分区训练模型.
  2. 我使用该模型来预测组(分类),其中,测试点可能落在.

不幸的是,我没有得到预期的答案.我在代码中遗漏了什么,或者我做错了什么?

public class SimpleClassifier {

    public static class Point{
        public int x;
        public int y;

        public Point(int x,int y){
            this.x = x;
            this.y = y;
        }

        @Override
        public boolean equals(Object arg0) {
            Point p = (Point)  arg0;
            return( (this.x == p.x) &&(this.y== p.y));
        }

        @Override
        public String toString() {
            // TODO Auto-generated method stub
            return  this.x + " , " + this.y ; 
        }
    } …
Run Code Online (Sandbox Code Playgroud)

java classification mahout

4
推荐指数
1
解决办法
755
查看次数

如何在Mahout 0.9中实现SlopeOne推荐器?

我是Mahout的新手,我正在尝试通过'Mahout in Action',它使用0.5版本.早期的一个例子要求使用斜率一推荐器.这个推荐者仍然包含在Mahout 0.9中吗?我查看了文档,但找不到它.也许它改变了名字?

谢谢你的帮助!

mahout mahout-recommender

4
推荐指数
1
解决办法
1360
查看次数