sta*_*onk 2 database cassandra
根据:
http://www.datastax.com/docs/1.0/ddl/column_family#about-column-family-compression
RDBMS 看到压缩导致性能下降的原因是因为必须在磁盘上查找被覆盖的数据,解压缩,覆盖,然后重新压缩。另一方面,Cassandra 可以看到读取和写入的性能提升,因为 SSTable 是不可变的,因此没有记录被覆盖,因此开销比压缩 RDBMS 小得多。
我想知道,随着 Cassandra 数据存储的持续增长,从长远来看这有什么影响?似乎唯一的结果是对更多磁盘空间的需求不断增长,这是正确的吗?
Cassandra 会定期在您现有的 SSTable 上运行压缩过程。Compaction 将多个 SSTable 合并为一个新的更大的 SSTable,丢弃过时的数据。压缩发生后,Cassandra 将(最终)删除旧的 SSTable。
因此,如果数据集的大小稳定,则 SSTable 的大小不会无限增长。Cassandra wiki 包含更多关于压缩的信息。