标签: mahout

使用Neo4j作为Mahout数据存储区

有没有人成功地将Apache Mahout与Neo4j集成为数据存储区？如果是这样,涉及多少作品,表现如何？

neo4j mahout

Eng*_*_DJ

lucky-day

5
推荐指数

1
解决办法

969
查看次数

最近SVM的实施被添加到Mahout中,我计划使用SVM.有人试过吗？

使用Hadoop在Mahout(使用Hadoop进行机器学习)中围绕SVM(支持向量机)进行的任何新开发？最近SVM实施被添加到Mahout中.我打算使用SVM.有人试过吗？互联网上提供的信息非常少.

任何帮助/指导表示赞赏.

hadoop svm mahout

ras*_*hid

lucky-day

5
推荐指数

1
解决办法

2291
查看次数

将CSV转换为SequenceFile

我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建NamedVectors以用于群集作业.我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors.看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector.我哪里错了？

hadoop mahout sequencefile

Ali*_*son

lucky-day

5
推荐指数

1
解决办法

7230
查看次数

在mahout 0.8中运行cvb

目前的Mahout 0.8-SNAPSHOT包括用于主题建模的折叠变分贝叶斯(cvb)版本,并删除了潜在Dirichlet分析(lda)方法,因为cvb可以更好地并行化.不幸的是,只有关于如何运行示例和生成有意义输出的lda文档.

因此,我想:

正确处理一些文本
运行cvb的cvb0_local版本
通过查看每个生成主题中的前n个单词来检查结果

mahout lda topic-modeling

JoK*_*opp

2013 02-08

5
推荐指数

1
解决办法

4302
查看次数

如何在 mahout 中矢量化文本文件？

我有一个带有 label 和 tweets 的文本文件。

    positive,I love this car
    negative,I hate this book
    positive,Good product.

Run Code Online (Sandbox Code Playgroud)

我需要将每一行转换为向量值。如果我使用seq2sparse命令意味着整个文档被转换为向量，但我需要将每一行转换为向量而不是整个文档。ex : key : positive value : vectorvalue(tweet) 我们如何在 mahout 中实现这一点？

/* 这是我所做的 */

    StringTokenizer str= new StringTokenizer(line,",");
            String label=str.nextToken();
            while (str.hasMoreTokens())
            {
            tweetline =str.nextToken();
            System.out.println("Tweetline"+tweetline);
            StringTokenizer words = new StringTokenizer(tweetline," ");
            while(words.hasMoreTokens()){
            featureList.add(words.nextToken());}
            }
            Vector unclassifiedInstanceVector = new RandomAccessSparseVector(tweetline.split(" ").length);
 FeatureVectorEncoder vectorEncoder = new AdaptiveWordValueEncoder(label);
            vectorEncoder.setProbes(1);
            System.out.println("Feature List: "+featureList);
            for (Object feature: featureList) {
                vectorEncoder.addToVector((String) feature, unclassifiedInstanceVector);
            }
            context.write(new Text("/"+label), new VectorWritable(unclassifiedInstanceVector)); …

Run Code Online (Sandbox Code Playgroud)

java vectorization bigdata mahout

use*_*315

2013 08-07

5
推荐指数

1
解决办法

1695
查看次数

用Hadoop扩展Cassandra和Mahout

是否可以配置Mahout在执行Hadoop上的推荐作业时从Cassandra集群检索输入数据？

我已经找到了关于这个主题的一些资源 - 请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但是那里描述的指示有似乎不起作用(在mahout-0.6和mahout-0.7上都试过).对于istance itemIDIndexPath变量似乎不存在于RecommenderJob类中,也不存在于它扩展的抽象类中.

hadoop cassandra mahout

Dum*_* P.

lucky-day

5
推荐指数

1
解决办法

395
查看次数

Py4J的开销比Jython和JPype大

在从Django应用程序（python）中搜索运行Java代码的选项后，我发现Py4J对我而言是最佳选择。我尝试了Jython，JPype和Python子进程，它们每个都有一定的局限性：

Jython。我的应用程序在python中运行。
JPype越野车。您可以在它再次无法启动之后立即启动JVM。
Python子进程。由于常规的控制台调用，因此无法在Python和Java之间传递Java对象。

在Py4J网站上写道：

在性能方面，Py4J依赖于套接字，因此比以前的两个解决方案（Jython和JPype）都有更大的开销，但是如果性能对您的应用程序至关重要，那么从Python程序访问Java对象可能不是最好的主意。

在我的应用程序中性能至关重要，因为我正在使用机器学习框架Mahout。我的问题是：由于Py4J网关服务器，Mahout的运行速度也会变慢吗？否则，这意味着从Python函数调用Java方法的速度会变慢（在后者的情况下，Mahout的性能不会成为问题，我可以使用Py4J）。

python java mahout py4j

HIP*_*HOP

2017 02-18

5
推荐指数

1
解决办法

4302
查看次数

如何在Apache Spark中进行多标签分类

我想对大数据集进行多标签文本分类，并且似乎大数据机器学习工具（例如Apache Mahout或Spark MLLib）目前不支持该分类。我想知道是否有人对大数据集进行过多标签分类？有没有计划在不久的将来在Mahout或Spark中集成多标签分类？

mahout apache-spark

HHH*_*HHH

lucky-day

5
推荐指数

1
解决办法

495
查看次数

Mahout - 简单的分类问题

我正在尝试构建一个简单的模型,可以将点分类为 2D空间的2个分区:

我通过指定几个点和它们所属的分区来训练模型.
我使用该模型来预测组(分类),其中,测试点可能落在.

不幸的是,我没有得到预期的答案.我在代码中遗漏了什么,或者我做错了什么？

public class SimpleClassifier {

    public static class Point{
        public int x;
        public int y;

        public Point(int x,int y){
            this.x = x;
            this.y = y;
        }

        @Override
        public boolean equals(Object arg0) {
            Point p = (Point)  arg0;
            return( (this.x == p.x) &&(this.y== p.y));
        }

        @Override
        public String toString() {
            // TODO Auto-generated method stub
            return  this.x + " , " + this.y ; 
        }
    } …

Run Code Online (Sandbox Code Playgroud)

java classification mahout

use*_*939

2014 09-11

4
推荐指数

1
解决办法

755
查看次数