HBase扫描很慢

Question

HBase扫描很慢

Mar*_*tin 14 hbase phoenix

问题

我正在尝试与Phoenix建立二级索引.索引创建需要几个小时.这似乎是由于HBase扫描速度慢,因为我注意到以下性能:

我可能需要2个小时来扫描表,而其他开发人员报告了几分钟的大表(1亿行).
HBase shell能够计算大约的行数.速率为每秒10.000,这意味着3800s(> 1小时!)来计算该表的所有行.

使用HBase shell和Java扫描程序.

注意:GET(通过rowkey)操作实现了良好的性能(约0.5秒).

上下文

3800行/ 1000列/单列系列/ 96Go,带GZ压缩.
Cluster有6个节点(126Go RAM,24个核心),有5个区域服务器.
Hortonworks数据平台2.2.0

故障排除

基于HBase书籍(http://hbase.apache.org/book.html#performance),这是我已经检查过的内容:

1)硬件

IO(磁盘)
- NMon称磁盘永远不会超过80%,最常见的是0到20%
- Top说HBase JVM没有交换(检查5个RS中的2个)
IO(网络):每个节点活动接口站在同一个交换机上(所有第二个被动接口都插在不同的交换机上)

2)JVM

GC暂停OK(每分钟左右暂停几毫秒)
堆看起来不错(在极限附近没有达到峰值太长)
CPU令人惊讶的低:从不超过10%
主题:
- 活动线程(10"RpServe.reader = N"+其他一些)显示没有争用
- 许多停放的线程什么都不做(60"DefaultRpcServer.handler = n",大约15个其他)
- 没有任何线程状态的巨大IPC客户端列表

3)数据

使用Hive + completebulkload批量加载.
地区数量:
- 13个区域意味着每个RS有2到3个大区域,这是预期的.
- 在强制进行主要压缩后,扫描性能保持不变.
- 区域大小相当同质:11个区域为4,5Go(+/- 0.5),2个区域为2,5Go

4)HBase配置

大多数配置保持不变.
- HBase env仅指示JMX控制台的端口
- HBase-site对Phoenix的设置很少
一些对我来说看起来不错的params
- hbase.hregion.memstore.block.multiplier
- hbase.hregion.memstore.flush.size:134217728 bytes(134Go)
- Xmx的Xmn比率:.2Xmn最大值:512Mb Xms:6144m
- hbase.regionserver.global.memstore.lowerLimit:0.38
- hbase.hstore.compactionTreshold:3
- hfile.block.cache.size:0.4(块缓存大小占堆的AS%)
- 最大HStoreFile(hbase.hregion.max.filesize):10 go(10737418240)
- 客户端扫描程序缓存:100行zookeeper超时:30秒
- 客户端最大密钥值大小:10mo
- hbase.regionserver.global.memstore.lowerLimit:0.38
- hbase.regionserver.global.memstore.upperLimit:0.40
- hstore阻止storefiles:10
- hbase.hregion.memstore.mslab.enabled:
- 启用hbase.hregion.majorcompaction.jitter:0.5
尝试以下配置更改而不会对性能产生任何影响
- hbase-env.sh:尝试增加HBASE_HEAPSIZE = 6144(因为它默认为1000)
- hbase-site.xml:
  - hbase.ipc.server.callqueue.read.ratio:0.9
  - hbase.ipc.server.callqueue.scan.ratio:0.9

5)日志没有任何用处

cat hbase-hbase-master-cox.log | grep"2015-05-11.*ERROR"

cat hbase-hbase-regionserver - *.log | grep"2015-05-11.*ERROR"

什么都不打印

打印WARN显示非相关错误

2015-05-11 17:11:10,544 WARN [B.DefaultRpcServer.handler = 8,queue = 2,port = 60020] shortcircuit.ShortCircuitCache:ShortCircuitCache(0x2aca5fca):无法加载1074749724_BP-2077371184-184.10.17.65-1423758745093到期到InvalidToken异常.

2015-05-11 17:09:12,848 WARN [regionserver60020-smallCompactions-1430754386533] hbase.HBaseConfiguration:不建议使用配置选项"hbase.regionserver.lease.period".而是使用"hbase.client.scanner.timeout.period"

Answer 1

Mar*_*tin 3

明白了：关键是将“热”内容与“冷”内容分离到单独的列族中。列族用于将列存储在单独的 HFile 中，因此我们可以将一种列族用于索引（或经常读取）的列，并使用另一种列族（即文件）来存储所有其他列。

第一步：查看较小的列族扫描速度更快

我们只是丢弃冷内容来构建一个较小的列族（1655 列 -> 7 列）。

中等大小表扫描的性能：

[37.876.602行，1655列]扫描1000行花费了39.4750
[76.611.463行，7列]扫描1000行花费了1.8620

评论：

当我们扫描前 1000 行时，可以忽略总行数
由于从 Hbase shell 扫描会在控制台中打印内容，因此存在大行的开销

第二步：生成多族HTable

我们通过从 Hive 生成 HFile 来进行批量加载。尽管文档说我们无法生成一个多族表，但可以单独生成 HFile：

create table mytable_f1 (UUID string, source_col1, source_col2)
...
TBLPROPERTIES('hfile.family.path' = 'tmp/mytable/**f1**');

create table mytable_f1 (UUID string, source_col3, source_col4)
...
TBLPROPERTIES('hfile.family.path' = 'tmp/mytable/f2');

Run Code Online (Sandbox Code Playgroud)

然后像往常一样简单地调用导入命令：

hadoop jar [hbase-server-jar] completebulkload /tmp/mytable mytable

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，5 月前
查看次数：	5841 次
最近记录：	8 年，6 月前