Hadoop机器学习/数据挖掘项目的想法?

dre*_*134 13 hadoop machine-learning data-mining

我是一名研究生CS学生(数据挖掘和机器学习),并且对核心Java(> 4年)有很好的了解.我已经阅读了很多关于Hadoop和Map/Reduce的东西

我现在想做一个关于这个东西的项目(在我的科西嘉的空闲时间)以获得更好的理解.

任何好的项目想法都会非常感激.我只是想做这个来学习,所以我真的不介意重新发明轮子.此外,与数据挖掘/机器学习相关的任何事情都将是一个额外的奖励(符合我的研究),但绝对没有必要.

iin*_*ion 8

你没有写任何关于你的兴趣的文章.我知道图挖掘中的算法已经在hadoop框架上实现了.该软件http://www.cs.cmu.edu/~pegasus/和论文:"PEGASUS:Peta-Scale Graph Mining System - 实施和观察"可以为您提供起点.

此外,此链接讨论类似于您的问题:http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/但它在python中.而且,Andrew Ng撰写了一篇非常好的论文"用于多核机器学习的Map-Reduce".

有一个关于类似主题"大规模机器学习:并行性和大规模数据集"的NIPS 2009研讨会.您可以浏览一些论文并获得一个想法.

编辑:还有Apache Mahout http://mahout.apache.org/ - >"我们用于集群,分类和基于批处理的协同过滤的核心算法是在Apache Hadoop上使用map/reduce范例实现的"