小编Edu*_*ams的帖子

如何处理大数据数据集市/事实表?(2.4亿行)

我们有一个BI客户,他们的销售数据库表每月产生大约4千万行,这些行是根据他们的销售交易生成的.他们希望使用5年的历史数据构建销售数据集市,这意味着该事实表可能会有大约2.4亿行.(40 x 12个月x 5年)

这是结构良好的数据.

这是我第一次面对这么多数据,这让我分析了像Inforbright和其他工具这样的垂直数据库工具.但是仍然使用这种软件,一个简单的查询将需要非常长的时间来运行.

这让我看看Hadoop,但在阅读了一些文章后,我得出结论,Hadoop不是创建事实表的最佳选择(即使使用Hive),因为我的理解是用于处理非结构化数据.

所以,我的问题是:构建这个挑战的最佳方法是什么?,我不是在寻找合适的技术吗?在一个如此重要的事实表中,我能得到的最佳查询响应时间是多少?..或者我在这里面对一个真正的墙,唯一的选择是建立聚合表?

database hadoop hive data-warehouse infobright

5
推荐指数
1
解决办法
5187
查看次数

标签 统计

data-warehouse ×1

database ×1

hadoop ×1

hive ×1

infobright ×1