相关疑难解决方法(0)

每月200亿行 - Hbase/Hive/Greenplum /什么?

我想用你的智慧为数据仓库系统找到合适的解决方案.以下是一些可以更好地理解问题的细节:

数据以星型模式结构组织,具有一个BIG事实和~15个维度.
每月20B个事实行
10个维度有100行(有些层次结构)
5个维度有数千行
2个维度有~200K行
2个大尺寸有50M-100M行

针对此DB运行两个典型查询

dimq的热门成员:

select    top X dimq, count(id) 
from      fact 
where     dim1 = x and dim2 = y and dim3 = z 
group by  dimq 
order by  count(id) desc
Run Code Online (Sandbox Code Playgroud)

针对元组的措施:

select    count(distinct dis1), count (distinct dis2), count(dim1), count(dim2),...
from      fact 
where     dim1 = x and dim2 = y and dim3 = z 
Run Code Online (Sandbox Code Playgroud)

问题:

  1. 执行此类查询的最佳平台是什么
  2. 需要什么样的硬件
  3. 哪里可以托管(EC2?)


    (请忽略此刻的导入和加载问题)

Tnx,
Haggai.

database mapreduce data-warehouse vldb greenplum

31
推荐指数
2
解决办法
2万
查看次数

标签 统计

data-warehouse ×1

database ×1

greenplum ×1

mapreduce ×1

vldb ×1