Cassandras Map减少支持

Tob*_*ias 6 hadoop mapreduce apache-pig cassandra

我最近碰到了一个案例,Cassandra非常适合存储基于时间的事件,每个事件类型都有自定义ttl(另一个解决方案是将它保存在hadoop中并手动进行簿记(ttls和stuff,恕我直言,这是一个非常复杂的想法)或切换到hbase).问题是如果没有Datastax Enterprise版本,cassandra MapReduce支持的开箱即用效果如何.

看起来他们在CassandraFS上投入了大量资金,但我问自己,正常的Pig CassandraLoader是否得到了积极维护并实际进行了扩展(因为它似乎只是迭代切片中的行).这适用于100万行吗?

小智 -2

为什么不是hbase?Hbase更适合时间序列数据。您可以轻松地将数十亿行放在非常小的集群上,并在启用了 WAL 的小型 3 节点集群上每秒获取高达 50 万行(高达 50MB/s)。Cassandra 有几个缺陷:

  1. 在 cassandra 中,您实际上受到键数量的限制(想象一下,如果有数十亿行,您的修复将永远有效)。因此,您将设计模式,它将您的时间“分片”,例如 1 小时,并且实际时间戳将作为列放置。但由于“巨柱”的高风险,这种方案无法很好地扩展。
  2. 其他问题 - 您无法映射 cassandra 中的数据范围,除非您使用有序分区器,这根本不是一个选项,因为它无法很好地平衡。