HBase - 行键基础知识

Kal*_*ist 8 hbase nosql

注意:几个小时前,我开始使用 HBase 并且我来自 RDBMS 背景:P

我有一个类似 RDBMS 的表 CUSTOMERS 具有以下列:

  1. CUSTOMER_ID STRING
  2. CUSTOMER_NAME STRING
  3. CUSTOMER_EMAIL STRING
  4. CUSTOMER_ADDRESS STRING
  5. CUSTOMER_MOBILE STRING

我想到了以下 HBase 等效项:

表:客户行键:客户 ID

列族:CUSTOMER_INFO

列:姓名电子邮件地址移动

从我读过的内容来看,RDBMS 表中的主键大致类似于HBase 表的行键。因此,我想保留 CUSTOMER_ID 作为行键。

我的问题既愚蠢又直接:

  1. 不管我是使用 shell 命令还是 HBaseAdmin java 类,我如何定义行键?我在 shell 或 HBaseAdmin 类中都没有找到任何可以做的事情(比如 HBaseAdmin.createSuperKey(...))
  2. 给定一个 HBase 表,如何确定 rowkey 详细信息,即哪些值用作 rowkey?
  3. 我知道 rowkey 设计是一件至关重要的事情。假设客户 id 接收 CUST_12345、CUST_34434 等值,HBase 将如何使用 rowkey 来决定特定行驻留在哪个区域(假设该区域概念类似于 DB 水平分区)?

* * *编辑添加示例代码片段

我只是想在 shell 中使用“put”为客户表创建一行。我这样做了:

hbase(main):011:0> put  'CUSTOMERS', 'CUSTID12345', 'CUSTOMER_INFO:NAME','Omkar Joshi'
0 row(s) in 0.1030 seconds

hbase(main):012:0> scan 'CUSTOMERS'
ROW                              COLUMN+CELL
 CUSTID12345                     column=CUSTOMER_INFO:NAME, timestamp=1365600052104, value=Omkar Joshi
1 row(s) in 0.0500 seconds

hbase(main):013:0> put  'CUSTOMERS', 'CUSTID614', 'CUSTOMER_INFO:NAME','Prachi Shah', 'CUSTOMER_INFO:EMAIL','Prachi.Shah@lntinfotech.com'

ERROR: wrong number of arguments (6 for 5)

Here is some help for this command:
Put a cell 'value' at specified table/row/column and optionally
timestamp coordinates.  To put a cell value into table 't1' at
row 'r1' under column 'c1' marked with the time 'ts1', do:

  hbase> put 't1', 'r1', 'c1', 'value', ts1


hbase(main):014:0> put  'CUSTOMERS', 'CUSTID12345', 'CUSTOMER_INFO:EMAIL','Omkar.Joshi@lntinfotech.com'
0 row(s) in 0.0160 seconds

hbase(main):015:0>
hbase(main):016:0* scan 'CUSTOMERS'
ROW                              COLUMN+CELL
 CUSTID12345                     column=CUSTOMER_INFO:EMAIL, timestamp=1365600369284, value=Omkar.Joshi@lntinfotech.com
 CUSTID12345                     column=CUSTOMER_INFO:NAME, timestamp=1365600052104, value=Omkar Joshi
1 row(s) in 0.0230 seconds
Run Code Online (Sandbox Code Playgroud)

由于投入需要最大。5 个参数,我无法弄清楚如何在一个 put 命令中插入整行。这导致了不需要的同一行的增量版本,我不确定是否将 CUSTOMER_ID 用作行键!感谢致敬 !

Arn*_*-Oz 6

  1. 你没有,关键(和任何其他列)是一个字节数组,你可以把你想要的任何东西放在那里 - 甚至封装子实体

  2. 不确定我是否理解-每个值都存储为键+列族+列限定符+日期时间+值-所以键就在那里。

  3. HBase 计算出一条记录将在哪个区域进行。当区域变得太大时,它会重新分区。当垃圾太多时,HBase 也会不时执行压缩以重新排列文件。您可以在对自己进行预分区时控制这一点,这是您将来绝对应该考虑的事情。但是,由于您似乎刚刚开始使用 HBase,您可以从 HBase 开始处理。一旦你更好地理解了你的使用模式和数据,你可能会想要再复习一遍。

您可以在这里这里阅读/听到一些关于 HBase 架构设计的信息