比较德鲁伊和pipelinedb

Question

比较德鲁伊和pipelinedb

J. *_*ham 6 memory performance benchmarking scalability aggregate

我一直致力于流数据的聚合,我找到了两个实现相同的工具.他们是德鲁伊和管道.我已经理解了两者的实现和架构.但无法想出一种方法来对这两者进行基准测试.是否已经完成了现有的基准测试？或者,除了速度和可扩展性之外,如果我想对自己进行基准测试,那么我需要考虑的因素是什么.任何想法,链接和帮助都会非常明显.同时与pipelinedb和druid分享您自己的经验

谢谢

Answer 1

Yur*_*sin 0

更新：

阅读 PipelineDB 页面后，我只是想知道为什么需要比较如此不同的东西？

Druid的安装和维护相当复杂，它需要几个外部依赖项（例如zookeeper和hdfs/amazon，它们也必须维护）。

以这个价格，您可以购买 Druid 的主要功能：面向列和分布式存储和处理。这也意味着开箱即用的水平可扩展性，并且它是完全自动的，您甚至不需要考虑它。

因此，如果你不需要它的分布式特性，我会说你根本不需要德鲁伊。

第一个版本：

我对 pipelinedb 没有经验（这是什么？谷歌什么也没显示，请分享一些链接），但我对 druid 有很多经验。所以我会考虑（除了[查询]速度和可扩展性）：

摄取性能（每秒/分钟/小时/...可以插入多少行？）
摄取的 RAM 消耗（以目标速度摄取需要多少 RAM？）
压缩级别（一小时/天/月/...需要多少磁盘空间？）
容错（当某些组件发生故障时会发生什么？这对我的业务至关重要？）
缓存（请记住）

归档时间：	9 年，7 月前
查看次数：	542 次
最近记录：	8 年，1 月前