有没有人成功地将Apache Mahout与Neo4j集成为数据存储区?如果是这样,涉及多少作品,表现如何?
使用Hadoop在Mahout(使用Hadoop进行机器学习)中围绕SVM(支持向量机)进行的任何新开发?最近SVM实施被添加到Mahout中.我打算使用SVM.有人试过吗?互联网上提供的信息非常少.
任何帮助/指导表示赞赏.
我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建NamedVectors以用于群集作业.我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors.看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector.我哪里错了?
目前的Mahout 0.8-SNAPSHOT包括用于主题建模的折叠变分贝叶斯(cvb)版本,并删除了潜在Dirichlet分析(lda)方法,因为cvb可以更好地并行化.不幸的是,只有关于如何运行示例和生成有意义输出的lda文档.
因此,我想:
我有一个带有 label 和 tweets 的文本文件。
Run Code Online (Sandbox Code Playgroud)positive,I love this car negative,I hate this book positive,Good product.
我需要将每一行转换为向量值。如果我使用seq2sparse命令意味着整个文档被转换为向量,但我需要将每一行转换为向量而不是整个文档。ex : key : positive value : vectorvalue(tweet) 我们如何在 mahout 中实现这一点?
/* 这是我所做的 */
StringTokenizer str= new StringTokenizer(line,",");
String label=str.nextToken();
while (str.hasMoreTokens())
{
tweetline =str.nextToken();
System.out.println("Tweetline"+tweetline);
StringTokenizer words = new StringTokenizer(tweetline," ");
while(words.hasMoreTokens()){
featureList.add(words.nextToken());}
}
Vector unclassifiedInstanceVector = new RandomAccessSparseVector(tweetline.split(" ").length);
FeatureVectorEncoder vectorEncoder = new AdaptiveWordValueEncoder(label);
vectorEncoder.setProbes(1);
System.out.println("Feature List: "+featureList);
for (Object feature: featureList) {
vectorEncoder.addToVector((String) feature, unclassifiedInstanceVector);
}
context.write(new Text("/"+label), new VectorWritable(unclassifiedInstanceVector)); …Run Code Online (Sandbox Code Playgroud) 是否可以配置Mahout在执行Hadoop上的推荐作业时从Cassandra集群检索输入数据?
我已经找到了关于这个主题的一些资源 - 请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但是那里描述的指示有似乎不起作用(在mahout-0.6和mahout-0.7上都试过).对于istance itemIDIndexPath变量似乎不存在于RecommenderJob类中,也不存在于它扩展的抽象类中.
在从Django应用程序(python)中搜索运行Java代码的选项后,我发现Py4J对我而言是最佳选择。我尝试了Jython,JPype和Python子进程,它们每个都有一定的局限性:
在Py4J网站上写道:
在性能方面,Py4J依赖于套接字,因此比以前的两个解决方案(Jython和JPype)都有更大的开销,但是如果性能对您的应用程序至关重要,那么从Python程序访问Java对象可能不是最好的主意。
在我的应用程序中性能至关重要,因为我正在使用机器学习框架Mahout。我的问题是:由于Py4J网关服务器,Mahout的运行速度也会变慢吗?否则,这意味着从Python函数调用Java方法的速度会变慢(在后者的情况下,Mahout的性能不会成为问题,我可以使用Py4J)。
我想对大数据集进行多标签文本分类,并且似乎大数据机器学习工具(例如Apache Mahout或Spark MLLib)目前不支持该分类。我想知道是否有人对大数据集进行过多标签分类?有没有计划在不久的将来在Mahout或Spark中集成多标签分类?
我正在尝试构建一个简单的模型,可以将点分类为 2D空间的2个分区:
不幸的是,我没有得到预期的答案.我在代码中遗漏了什么,或者我做错了什么?
public class SimpleClassifier {
public static class Point{
public int x;
public int y;
public Point(int x,int y){
this.x = x;
this.y = y;
}
@Override
public boolean equals(Object arg0) {
Point p = (Point) arg0;
return( (this.x == p.x) &&(this.y== p.y));
}
@Override
public String toString() {
// TODO Auto-generated method stub
return this.x + " , " + this.y ;
}
} …Run Code Online (Sandbox Code Playgroud) 我是Mahout的新手,我正在尝试通过'Mahout in Action',它使用0.5版本.早期的一个例子要求使用斜率一推荐器.这个推荐者仍然包含在Mahout 0.9中吗?我查看了文档,但找不到它.也许它改变了名字?
谢谢你的帮助!