标签: hbase

HBase中的高级查询

鉴于以下HBase架构方案(来自官方常见问题解答)......

您如何为两个实体之间的多对多关联设计Hbase表,例如学生和课程?

我会定义两个表:

学生:学生ID学生数据(姓名,地址,...)课程(在此处使用课程ID作为列限定符)

课程:课程id课程数据(姓名,教学大纲,...)学生(在这里使用学生ID作为栏目限定词)

此模式使您可以快速访问查询,显示学生(学生表,课程系列)的所有课程,或所有课程的学生(课程表,学生家庭).

您如何满足这一要求:" 给我所有共享至少两门共同课程的学生 "?您可以在HBase中构建一个返回该集合的"查询",还是必须检索所有相关数据并在代码中自行处理?

sql hadoop hbase nosql

8
推荐指数
1
解决办法
6343
查看次数

HBase连接异常

我尝试以伪分布式模式运行HBase.但是在设置hbase-site.xml之后它不起作用.

每次我尝试在hbase shell中运行命令时都会收到此错误:

错误:org.apache.hadoop.hbase.ZooKeeperConnectionException:org.apache.hadoop.hbase.ZooKeeperConnectionException:org.apache.zookeeper.KeeperException $ ConnectionLossException:KeeperErrorCode = /Lbase的connectionLoss

我设置了ssh并确保所有端口都正确.

而且,我无法阻止hbase ./bin/stop-hbase.sh.我只得到以下输出.

stopping hbase........................................................
Run Code Online (Sandbox Code Playgroud)

hadoop hbase

8
推荐指数
1
解决办法
1万
查看次数

大数据集 - NoSQL,NewSQL,SQL ..?大脑炒

我需要一些建议.我在数据挖掘领域开始了一个新的初创公司.这基本上是研究项目的分拆.

无论我们有多大的非结构化数据,我们都会对这些数据进行各种NLP,分类和聚类分析.

我们有数以百万计的消息,包括推特消息,博客文章,论坛帖子,新论文,报告等等......所有文字.我们所有人都需要大约300GB +的文本数据并且每天都在增长(每天大约10GB增长)!

因此,我们需要某个地方以一种我们可以实际处理和查询并获得相对实时结果的格式存储所有这些信息.

我们需要在某处存储这些数据...

由于这是一个新的初创公司,我们真的不能/不想为许可产品付费,例如VoltDB,Oracle等企业版是遥不可及的.

我认为这可能是非关系"NoSQL"数据库的完美应用程序,例如Apache Cassandra或Hadoop/HBase(列族),MongoDB(文档),VoltDB(社区edn)或MySQL.

目前,所有数据都在tsv文本文件中,并作为其写入文件进行处理.不用说它很痛苦,这意味着整个事情都停留在一个过程中,我们无法查询它.它可以工作,但它限制了我们可以用这个数据集做的丰富性.

无论如何,我希望有人可以使用上述任何工具或任何针对此用例的建议(大型文本数据非结构化)来分享他们的经验,用于自然语言处理,分类,聚类,频率收集,实时分析等. ?

我最大的担心是MySQL无法处理未来的大量数据.今年年底,这件事将处于TB级,所以我们通过实施可扩展的解决方案,让我们轻松查询数据,试图获得曲线和增长的一部分......

我认为像HBase这样的非rel/NoSQL列族数据库是最好的,对于我们一直添加新的数据源(爬虫,流API等),如果我们有一个非结构化的模型,它会容易得多.

任何帮助将不胜感激!地狱甚至可能有一份工作:)

干杯!

mysql hadoop hbase cassandra nosql

8
推荐指数
1
解决办法
1575
查看次数

分组在HBase

我对HBase几乎一无所知.对不起基本问题.

想象一下,我有一个包含10亿个行,一个日期时间和一个字符串列的1000亿行表.

  1. HBase是否允许查询此表并根据键(甚至是复合键)对结果进行分组?
  2. 如果是这样,它是否必须运行map/reduce作业?
  3. 你如何提供查询?
  4. HBase一般可以在表上执行实时查询吗?

hbase group-by

8
推荐指数
2
解决办法
1万
查看次数

获取行HBase的特定列族中的列

我正在编写一个应用程序,通过JSP在HBase中的特定表中显示数据.我想获取特定列系列中的所有列.

有没有办法做到这一点?

java hadoop hbase

8
推荐指数
2
解决办法
1万
查看次数

HBase 0.92在Windows上使用Cygwin独立

有没有人知道在Cygwin下如何在Windows上运行HBase的教程?

我设法设置所有内容,例如使用SSH自动登录的密钥,但我坚持以下错误消息:

localhost: +======================================================================+
localhost: |      Error: JAVA_HOME is not set and Java could not be found         |
localhost: +----------------------------------------------------------------------+
localhost: | Please download the latest Sun JDK from the Sun Java web site        |
localhost: |       > http://java.sun.com/javase/downloads/ <                      |
localhost: |                                                                      |
localhost: | HBase requires Java 1.6 or later.                                    |
localhost: | NOTE: This script will find Sun Java whether you install using the   |
localhost: |       binary or the RPM based installer.                             |
localhost: +======================================================================+
Run Code Online (Sandbox Code Playgroud)

... …

java cygwin hbase

8
推荐指数
2
解决办法
5078
查看次数

擦除Zookeeper数据目录

我是Hadoop/Hbase和zookeeper的新手.
我在运行create table命令时面临以下异常hbase shell.

org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
Run Code Online (Sandbox Code Playgroud)

这个问题中提到我需要遵循以下步骤:

1. Stop Zookeeper  
2. Wipe the Zookeeper data directory  
3. Restart it
Run Code Online (Sandbox Code Playgroud)

解决此问题.

有人可以解释如何在Ubuntu中执行这些步骤.
任何帮助将受到高度赞赏

ubuntu hadoop hbase apache-zookeeper

8
推荐指数
1
解决办法
2万
查看次数

HBase中多列家族有哪些优势?

我想将HBase用作我的应用程序的数据库.我有一个有多列的表.我现在需要决定应该使用多少列系列,一个或多个.如果不止一个,会有什么优缺点.

hbase nosql

8
推荐指数
1
解决办法
5401
查看次数

Docker:连接到外部数据库

我有运行hbase实例的应用程序连接,我们计划将应用程序移动到docker容器中,但保持hbase在docker之外运行.我可以让我的app在docker container中运行,在运行docker container时使用add-host选项连接到hbase,如下所示

docker run -dit --add-host hbasehost:xxx.xxx.xxx.xxx mydockerimage
Run Code Online (Sandbox Code Playgroud)

然而我们需要的是swarm的自动缩放功能,因为我们有多个服务要运行,如果我想运行我的应用程序作为docker服务而不是单个容器,实现这个的正确方法是什么,我找不到任何引用到"docker service"中的"--add-host"

hbase docker docker-swarm

8
推荐指数
1
解决办法
1388
查看次数

在Http模式下通过thrift服务器连接到HBase的Python程序

我试图写一个简单的程序通过在Http模式下启动的thrift连接到HBase服务器.(集群是kerberized)但我总是得到'读零字节错误消息'

我已经在下面提到了链接,但这些示例仅在thrift服务器以二进制模式启动时才起作用(??) https://github.com/joshelser/hbase-thrift1-python-sasl/blob/master/get_row.py ,

我做了Klist和Kinit一切看起来很好,我也遵循了HDP文档,我的设置是正确的

https://community.hortonworks.com/articles/87655/start-and-test-hbase-thrift-server-in-a-kerberised.html

当我运行以下命令时,我能够列出表格

hbase org.apache.hadoop.hbase.thrift.HttpDoAsClient host 9090 hbase true

任何对通过thrift http模式连接到HBase的示例代码的引用都非常感谢

谢谢

python hbase kerberos thrift hdp

8
推荐指数
1
解决办法
354
查看次数