Cassandra架构设计的可行性

Wil*_*ing 2 cassandra

我正在为我的一个项目评估cassandra,我很想知道一个基本的cassandra模式设计的可行性,该模式设计有数百万个具有数百万行的列族.每行的上限为30,000列.这是分布式cassandra集群(5-10个节点)的可行设计,还是我遗漏了什么?

我也有兴趣知道在一个事务中从一行检索所有列的可行性.我想这样做的原因是在将它们返回给用户之前按它们的值对它们进行排序.

nic*_*ley 6

数百万个柱系列目前在cassandra中不可行.最近版本的上限是数千个.此外,您描述的数据集(数百万个cfs x百万行)表示至少有1万亿行.当然,这取决于集群的细节,但是这些行/数据量将需要比5-10个节点大得多的集群.对于非常庞大和强大的节点,Cassandra的中等大小节点要好得多.

关于一次检索所有列,默认的最大请求大小为15mb.这可以改变,但你几乎肯定不想改变它.您的查询很可能不应该接近该最大请求,因为JVM上的大型分配很难.有没有理由它需要在一个单一的交易中?您可以在几个请求中轻松浏览一行以获取所有列,然后在该点进行排序.