Apache Storm与Hadoop相比

Question

Storm如何与Hadoop相比？Hadoop似乎是开源大规模批处理的事实标准,Storm有没有优于hadoop的优势？还是他们完全不同？

Answer 1

你为什么不说出你的意见.

Twitter Storm被吹捧为实时Hadoop.这更像是一种易于消费的营销方式.

它们表面上相似,因为它们都是分布式应用程序解决方案.除了典型的分布式建筑元素,如主/从,基于zookeeper的协调,对我的比较从悬崖上掉下来.

Twitter更像是处理数据的管道.管道连接各种计算节点,接收数据,计算和交付输出.(语言是喷口和螺栓)将这个类比扩展到复杂的管道布线,可以在需要时重新设计并获得Twitter Storm.

在坚果壳中,它处理数据.没有延迟.

Hadoop在这方面的差异主要是由于HDFS.它是一种适用于分布式存储的解决方案,可以承受许多规模(磁盘,机器,机架等)的中断

M/R旨在利用HDFS上的数据本地化来分配计算任务.它们一起不提供实时数据处理的便利.但是,当您查看大数据时,这并不总是必需的.(大海捞针比喻)

简而言之,Twitter Storm是一种分布式实时数据处理解决方案.我认为我们不应该比较它们.Twitter建立了它,因为它需要一个工具来处理小推文,而且需要实时处理大量推文.

请参阅:HStreaming如果您被迫将其与某些东西进行比较

+1,完全同意.只是一个小小的注释:Twitter没有建立它,他们[获得](http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html)它.BackType最初构建它. (6认同)
由于问题已经结束,我将我的意见添加为评论:只需将Storm vs. Hadoop视为*STDIN*处理与*文件*处理.以单词计数应用程序为例,Stormie从控制台读取您输入的单词,而Hadooper扫描您昨天创建的磁盘文件中的单词.当任务量变得太大时,只需要分发Storm和Hadoop. (2认同)

Answer 2

基本上,它们都用于分析大数据,但Storm用于实时处理,而Hadoop用于批处理.

这是我发现的一个非常好的Storm介绍: 点击这里

Answer 3

与其进行比较，不如说它们现在具有批处理 + 实时（伪实时）处理，相互补充。有一个相应的视频演示 - Ted Dunning on Twitter's Storm