为什么 Hbase 中需要列族？

Question

存在列族的原因是什么？例子：

场景一：

Table Row-Key ColumnFamily1 ColumnFamily2 ColumnFamily3

场景2：

Table1 Row-Key Column1...ColumnN
Table2 Row-Key Column1...ColumnN
Table3 Row-Key Column1...ColumnN

在场景1中，虽然一个表可以有多个列族，但所有列族都是单独存储的。那么为什么会有列族本身的概念呢？为什么不能有简单的场景2？同样，在场景 2 中，我不会阻止 HBase 提供的任何功能。您稍后仍然可以添加动态列（以及其他功能）。

我唯一关心的是，如果列族是单独存储的，那么为什么它们位于同一个表中？我只对列族的目的是什么（以及它解决什么问题）感兴趣？

Answer 1

根据定义，表是逻辑上属于在一起的数据的组织单元。列族为您提供了一种在表中创建子结构的方法，以便根据您的访问模式优化性能（这就是它解决的问题）。

实际上，虽然表中的列族“单独”存储在不同的文件中，但它们也存储在“附近”，因为 HBase 将给定行的所有值存储在同一区域中。这包括柱族的单独文件。尽管它们位于不同的文件中，但它们属于同一区域服务器。

相比之下，如果您将数据划分到不同的表中，则同一“行”的部分内容将驻留在不同的 HBase 区域中，并且在访问它们时，您将支付集群中不同区域服务器上的查找开销。

因此，如果您选择将一些数据放在单独的表中而不是列族中，那么您不仅会以难以管理的方式组织数据，还会丧失 HBase 的许多性能优势。