善用风暴？

Question

我一直在阅读有关Storm的内容,并在玩风暴启动器的例子.

我认为我得到了这个概念,它很适用于很多情况.我有一个测试项目,我想要了解更多关于这一点,但我想知道Storm是否真的适合这个.

我遇到的概念问题是"流媒体"定义.似乎Storms将作为订阅流并实时处理它的魅力,但我实际上没有流,而是我想要处理的有限数据集.

我知道有这方面的事情,但我对Storm的实时能力以及编写Storm的Nathan在其会谈中提到的其他有趣的观点感兴趣.

所以我想知道,人们会编写调查非流式API的Spouts,然后将结果差异化以模拟流吗？

第二个重点是,似乎Storm拓扑在中断之前从未完成处理,这再次不适用于我的情况.我希望我的拓扑结构知道,一旦我的有限源数据列表完成,处理就可以终止,并且可以发出最终结果.

那么,这一切在Storm术语中是否有意义,还是我看错了？如果是这样,您对这种实时并行计算需求提出了哪些替代方案？

谢谢!

Answer 1

在风暴谷歌小组中找到了答案.似乎DRCP拓扑将发出具有DRCP spout作为流接收的参数的元组,然后将在处理完成时指示回来(使用称为请求ID的唯一ID).

在同一个线程中说hadoop可能最适合这些情况,除非数据不够大并且可以完全处理.