德鲁伊可以取代hadoop吗?

Ami*_*rma 8 hadoop druid

德鲁伊用于实时和批处理.但它可以完全取代hadoop吗?如果不是为什么?至于hadoop对德鲁伊的优势是什么?我读过德鲁伊与hadoop一起使用.那么可以避免使用Hadoop吗?

Nyl*_*ile 6

我们在谈论两种略有相关但非常不同的技术.

德鲁伊是一个实时分析系统,非常适合时间序列和基于时间的事件聚合.

Hadoop是HDFS(分布式文件系统)+ Map Reduce(执行分布式流程的范例),它们共同创建了一个用于分布式处理的生态系统,并作为许多其他开源项目的底层/影响技术.

你可以设置德鲁伊来使用Hadoop; 即将MR作业触发到索引批处理数据并从HDFS读取其索引数据(当然它会将它们本地缓存在本地磁盘上)

如果你想忽略Hadoop,你也可以从本地机器进行索引和加载,当然还有一台机器的惩罚.


use*_*353 5

你能避免将 Hadoop 与 Druid 一起使用吗?是的,您可以将数据实时流式传输到 Druid 集群,而不是使用 Hadoop 批量加载。一种方法是将数据流式传输到Kafka,它会处理传入的事件并将它们传递给Storm,然后可以处理它们并将其加载到 Druid Realtime 节点。

通常,该设置用来用Hadoop并行,因为流的实时数据本身自带行李,经常需要被固定起来,并回填。整个架构被一些人称为“Lambda”