标签: hbase

可扩展的分布式文件系统,用于blobs,如图像和其他文档

Cassandra和HBase都不能有效地支持像图像一样的blob存储.直接存储在HDFS上会强调Namenode.Facebook的Haystack不是开源的.那么Lustre是分布式blob存储的不错选择吗?还有什么建议?

hadoop hbase cassandra

12
推荐指数
0
解决办法
3885
查看次数

RDBMS是否如Hadoop中描述的那样糟糕:权威指南?

我正在阅读Hadoop:Tom White的权威指南.在第13.6节"HBase与RDMS"中,他说如果你有很多数据,即使是简单的查询,比如获得10个最近的项目,也是非常昂贵的,他们不得不使用python和PL/SQL重写它们.

他给出了以下查询作为示例:

SELECT id, stamp, type FROM streams 
WHERE type IN ('type1','type2','type3','type4',...,'typeN')
ORDER BY stamp DESC LIMIT 10 OFFSET 0;
Run Code Online (Sandbox Code Playgroud)

并说:"RDBMS查询计划程序将此查询视为如下:

MERGE (
  SELECT id, stamp, type FROM streams
    WHERE type = 'type1' ORDER BY stamp DESC,
  ...,
  SELECT id, stamp, type FROM streams
    WHERE type = 'typeK' ORDER BY stamp DESC
) ORDER BY stamp DESC LIMIT 10 OFFSET 0;
Run Code Online (Sandbox Code Playgroud)

这里的问题是我们只关注前10个ID,但查询规划器实际上实现了整个合并,然后在最后限制.....实际上我们写了一个执行heapsort的自定义PL/Python脚本....几乎在所有情况下,这都优于本机SQL实现和查询规划器的策略......

预期的穿孔和expermiental结果

我无法想象会导致此类问题的数据集,您必须编写pl/python才能执行此类简单查询.所以我已经玩了一段时间来解决这个问题,并提出了以下观察:

这种查询的性能受O(KlogN)限制.因为它可以翻译成如下内容:

SELECT * FROM (
  SELECT id, stamp, type FROM streams
    WHERE type = 'type1' …
Run Code Online (Sandbox Code Playgroud)

postgresql rdbms hbase nosql

11
推荐指数
1
解决办法
680
查看次数

Hbase客户端ConnectionLoss for/hbase错误

我疯了:

已安装的Hadoop/Hbase全部正在运行;

/opt/jdk1.6.0_24/bin/jps
23261 ThriftServer
22582 QuorumPeerMain
21969 NameNode
23500 Jps
23021 HRegionServer
22211 TaskTracker
22891 HMaster
22117 SecondaryNameNode
21779 DataNode
22370 Main
22704 JobTracker
Run Code Online (Sandbox Code Playgroud)

伪分布式环境.

hbase shell

正在工作并提出正确的结果运行'列表'和;

hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 0.90.1-cdh3u0, r, Fri Mar 25 16:10:51 PDT 2011

hbase(main):001:0> status
1 servers, 0 dead, 8.0000 average load
Run Code Online (Sandbox Code Playgroud)

当通过红宝石和节俭连接时,一切正常; 我们正在添加数据,它正在进入系统,我们可以查询/扫描它.一切似乎都很好.

但是,在与Java连接时:

groovy> import org.apache.hadoop.hbase.HBaseConfiguration 
groovy> import org.apache.hadoop.hbase.client.HBaseAdmin 
groovy> conf = HBaseConfiguration.create() 
groovy> conf.set("hbase.master","127.0.0.1:60000"); …
Run Code Online (Sandbox Code Playgroud)

ruby java hadoop hbase thrift

11
推荐指数
1
解决办法
4万
查看次数

java中的java.sql.SQLException:org.apache.thrift.transport.TTransportException?

我正在尝试使用java在hive中创建表.我发现

java.sql.SQLException: org.apache.thrift.transport.TTransportException

在执行我的代码时.

这是我的代码

public void createTable(String tableName) {
        try{
            Statement stat = con.createStatement();

        String QueryString = "CREATE TABLE '"+tableName+"'(User_Id INTEGER NOT NULL AUTO_INCREMENT, " + "User_Name VARCHAR(25), UserId VARCHAR(20), User_Pwd VARCHAR(15), primary key(User_Id))";

        a = stat.executeUpdate(QueryString);
        if(a==1){
            System.out.println(a);
            System.out.println("Table has been created");
        }

        }catch(Exception e){
        System.out.println(e);}
} 
Run Code Online (Sandbox Code Playgroud)

为什么抛出这个异常以及如何解决它.

java hadoop hbase hive

11
推荐指数
1
解决办法
3万
查看次数

Scan和Get之间的性能差异?

我有一个包含8G数据的HBase表.

当我在该表上使用部分键扫描来检索给定键的值时,我得到几乎恒定的时间值检索.

当我使用a时Get,所花费的时间远远大于扫描时间.但是当我查看代码时,我发现它Get本身使用的是Scan.

任何人都可以解释这个时差吗?

hbase

11
推荐指数
1
解决办法
7244
查看次数

有什么命令我可以在Hbase学习一张桌子的大小吗?

有什么命令我可以在Hbase学习一张桌子的大小吗?我使用Hbase来保存来自Nutch的抓取数据.

hbase

11
推荐指数
2
解决办法
1万
查看次数

如何在HBase客户端应用程序中抑制INFO日志?

我正在编写一个访问HBase的Java控制台应用程序,我无法弄清楚如何摆脱所有恼人的INFO消息:

13/05/24 11:01:12 INFO zookeeper.ZooKeeper: Client environment:zookeeper.version=3.4.5-1392090, built on 09/30/2012 17:52 GMT
13/05/24 11:01:12 INFO zookeeper.ZooKeeper: Client environment:host.name=10.1.0.110
13/05/24 11:01:12 INFO zookeeper.ZooKeeper: Client environment:java.version=1.7.0_15
13/05/24 11:01:12 INFO zookeeper.ZooKeeper: Client environment:java.vendor=Oracle Corporation
13/05/24 11:01:12 INFO zookeeper.ZooKeeper: Client environment:java.home=/Library/Java/JavaVirtualMachines/jdk1.7.0_15.jdk/Contents/Home/jre
Run Code Online (Sandbox Code Playgroud)

等等...

我从客户端代码本身尝试了几种不同的东西,但没有一种明显的方法对我有用.

这是一个不起作用的例子:

Logger log = Logger.getLogger("log4j.logger.org.apache.zookeeper");
log.setLevel(Level.WARN);
Run Code Online (Sandbox Code Playgroud)

java hbase

11
推荐指数
1
解决办法
5578
查看次数

节点/ hbase不在ZooKeeper中

我是Hadoop中的新手,尝试使用Hadoop 2.5.2在伪分布式模式下安装Hbase,版本为hbase-0.98.10.1-hadoop1-bin.我无法添加表格.

当我尝试创建表时,以下错误仍在继续:

client.HConnectionManager$HConnectionImplementation: The node /hbase is not in ZooKeeper. It should have been written by the master. Check the value configured in 'zookeeper.znode.parent'. There could be a mismatch with the one configured in the master.
Run Code Online (Sandbox Code Playgroud)

它最终显示错误多次(约50次)后给出最终错误:

ERROR: The node /hbase is not in ZooKeeper. It should have been written by the master. Check the value configured in 'zookeeper.znode.parent'. There could be a mismatch with the one configured in the master.
Run Code Online (Sandbox Code Playgroud)

日志文件的最新条目是:

2015-02-23 16:38:39,456 ERROR [main] master.HMasterCommandLine: Master exiting …
Run Code Online (Sandbox Code Playgroud)

hadoop hbase hdfs

11
推荐指数
1
解决办法
2万
查看次数

我应该使用哪种HBase HBase连接器?

我们的堆栈由Google Data Proc(Spark 2.0)和Google BigTable(HBase 1.2.0)组成,我正在寻找使用这些版本的连接器.

对于我找到的连接器,我不清楚Spark 2.0和新的DataSet API支持:

该项目使用SBT在Scala 2.11中编写.

谢谢你的帮助

hbase scala apache-spark google-cloud-bigtable google-cloud-dataproc

11
推荐指数
1
解决办法
8768
查看次数

运行"hbase shell"在OSX中给出错误

尝试hbase shell在OSX中运行时出现以下错误(版本:10.11.4):

警告:-J-Dfile.encoding = UTF-8参数被忽略(在同一个VM中启动?)

警告:-J-XX:忽略MaxPermSize = 1024m参数(在同一个VM中启动?)

警告:-J-Xmx4096m参数被忽略(在同一个VM中启动?)

TypeError:无法在org/jruby/RubyKernel.java:1071中将Pathname转换为String require

需要在文件:/usr/local/Cellar/hbase/1.2.6/libexec/lib/jruby-complete-1.6.8.jar!/ META INF/jruby.home/lib/ruby​​/site_ruby/1.8/ruby​​gems/custom_require .RB:36

(root)在/usr/local/Cellar/hbase/1.2.6/libexec/bin/hirb.rb:118

我通过以下方式安装了Hbase: brew install hbase

作为该解决方案给在这里,我也试图像下面设置PATH变量:

?  ~ export HBASE_HOME=/usr/local/Cellar/hbase/1.2.6/libexec
?  ~ export PATH=$HBASE_HOME/bin:$PATH
Run Code Online (Sandbox Code Playgroud)

我也有jruby-complete-1.6.8.jar$HBASE_HOME/lib,如前所述这里.但仍然会出现同样的错误.

编辑1

? rvm list:

rvm rubies

   ruby-2.1.2 [ x86_64 ]
   ruby-2.2.0 [ x86_64 ]
=* ruby-2.2.2 [ x86_64 ]

# => - current
# =* - current && default
#  * - default


?  ruby -v
ruby 2.0.0p648 (2015-12-16 revision …
Run Code Online (Sandbox Code Playgroud)

ruby java macos hadoop hbase

11
推荐指数
1
解决办法
560
查看次数