标签: hbase

InputStream stream = ProgrammaticHFileGeneration.class.getResourceAsStream("ga-hourly.txt");
BufferedReader reader = new BufferedReader(new InputStreamReader(stream));
String line = null;

Map<byte[], String> rowValues = new HashMap<byte[], String>();

while((line = reader.readLine())!=null) {
    String[] vals = line.split(",");
    String row = new StringBuilder(vals[0]).append(".").append(vals[1]).append(".").append(vals[2]).append(".").append(vals[3]).toString();
    rowValues.put(row.getBytes(), line);
}

List<byte[]> keys = new ArrayList<byte[]>(rowValues.keySet());
Collections.sort(keys, byteArrComparator);


HBaseTestingUtility testingUtility = new HBaseTestingUtility();
testingUtility.startMiniCluster();

testingUtility.createTable("table".getBytes(), "data".getBytes());

Writer writer = new HFile.Writer(testingUtility.getTestFileSystem(),
    new Path("/tmp/hfiles/data/hfile"),
    HFile.DEFAULT_BLOCKSIZE, Compression.Algorithm.NONE, KeyValue.KEY_COMPARATOR);

for(byte[] key:keys) {
    writer.append(new KeyValue(key, "data".getBytes(), "d".getBytes(), rowValues.get(key).getBytes()));
}

writer.appendFileInfo(StoreFile.BULKLOAD_TIME_KEY, Bytes.toBytes(System.currentTimeMillis()));
writer.appendFileInfo(StoreFile.MAJOR_COMPACTION_KEY, Bytes.toBytes(true)); …

Run Code Online (Sandbox Code Playgroud)

hadoop hbase bulk-load

Nic*_*las

lucky-day

5
推荐指数

1
解决办法

3686
查看次数

Spark on YARN + Secured hbase

我正在向YARN(在spark 2.1.1 + kafka 0.10.2.1上)提交一份工作,该工作连接到一个安全的hbase集群.当我在"本地"模式下运行时,这项工作表现得很好(spark.master = local [*]).

但是,只要我将master作为YARN提交作业(并将部署模式作为客户端),我就会看到以下错误消息 -

Caused by: javax.security.auth.login.LoginException: Unable to obtain password from user

Run Code Online (Sandbox Code Playgroud)

我正在按照hortonworks的建议向纱线集群提供关于HBase和keytab等的信息.遵循这篇kb文章 - https://community.hortonworks.com/content/supportkb/48988/how-to-run-spark-job-to -interact与-固定-hbas.html

什么指针可能会发生什么？

登录HBase的机制:

UserGroupInformation.setConfiguration(hbaseConf)
val keyTab = "keytab-location") 
val principal = "kerberos-principal"
val ugi = UserGroupInformation.loginUserFromKeytabAndReturnUGI(principal, keyTab)
UserGroupInformation.setLoginUser(ugi)
ugi.doAs(new PrivilegedExceptionAction[Void]() {

override def run: Void = {
  hbaseCon = Some(ConnectionFactory.createConnection(hbaseConf))
  null
}
})

Run Code Online (Sandbox Code Playgroud)

此外,我尝试了登录的替代机制,如下所示:

UserGroupInformation.loginUserFromKeytab(principal, keyTab)
connection=ConnectionFactory.createConnection(hbaseConf)

Run Code Online (Sandbox Code Playgroud)

请建议.

hbase kerberos apache-spark hadoop2 spark-structured-streaming

Gya*_*yan

2018 10-27

5
推荐指数

1
解决办法

2836
查看次数

HBase BufferedMutator与PutList性能

我最近遇到了BufferedMutator类的HBase,它可以用于批量插入和删除.我以前使用List来放置数据hTable.put(putList)以做同样的事情.对我的代码进行基准测试似乎并没有显示出太大的差异,而是我在做的事情mutator.mutate(putList);.使用BufferedMutator而不是PutList有显着的性能提升吗？

java optimization hbase hbase-client

Par*_*hit

2017 08-30

5
推荐指数

1
解决办法

2233
查看次数

HBase：创建多个表还是包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表是有意义的。我知道表通常只有几个列族（1-2），每个列族可以支持1000多个列。

当HBase在单个表中可能包含大量列的情况下表现良好时，何时创建单独的表才有意义？

database-design hadoop hbase

spd*_*cbr

lucky-day

5
推荐指数

1
解决办法

889
查看次数

HBase Scan基于特定的HFile作为根

是否有任何具有以下行为的扫描/过滤器API？

给定时间范围,我希望扫描仪包含来自HFiles的数据超出范围,包括在HFiles中的行键在范围内.我们的想法是扫描所有HFile的内存索引,但只从磁盘中获取来自HFile的rowkeys的数据.

例如,如果HFile1在范围内并且HFile2超出范围,并且rowkey1有任何数据HFile1,我想获取rowkey1from的所有列HFile2,就好像它在范围内一样.另一方面,如果rowkey2包含HFile2但不包括在内HFile1,索引扫描程序应该跳到下一行键.

用例是在最后X小时内加载已修改的整行(即使只在一列上),从而避免对冗余数据进行全面扫描或任何磁盘扫描.这将集成到Spark/MR应用程序中,可能基于TableSnapshotInputFormat,所以我想我可以为HRegion,HStore或其他任何东西发送一些自定义代码,如果有的话.

非常感谢

java hbase mapreduce hfile

sha*_*y__

lucky-day

5
推荐指数

1
解决办法

93
查看次数