Hadoop,Mahout实时处理替代方案

mma*_*oka 18 java hadoop scalability real-time mahout

我打算在我的项目中使用hadoop作为"计算集群".然而,我读到Hadoop并不打算用于实时系统,因为开销与工作相关.我正在寻找可以这种方式使用的解决方案 - 可以轻松扩展到多台机器但不需要太多输入数据的作业.更重要的是,我想使用机器学习工作,例如在神经网络之前实时创建.

我可以为此目的使用哪些库/技术?

dme*_*ter 10

你是对的,Hadoop是专为批量处理而设计的.

阅读这个问题,我虽然最近关于最近由Twitter开源的Storm框架,可以将其视为"用于实时处理的Hadoop".

Storm使得在一组计算机上编写和扩展复杂的实时计算变得容易,可以实时处理Hadoop为批处理所做的工作.Storm保证每条消息都会被处理.而且速度很快 - 您可以使用小型群集每秒处理数百万条消息.最重要的是,您可以使用任何编程语言编写Storm拓扑.

(来自:InfoQ帖子)

但是,我还没有使用它,所以在实践中我真的不能说太多.

Twitter工程博客文章:http
://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html Github:https://github.com/nathanmarz/storm