标签: data-warehouse

在什么时候构建数据仓库是一个值得考虑的选择？换句话说,我应该注意哪些标志,指标或其他标准可能表明标准的交易环境不再足够？
全面数据仓库有哪些替代方案？事务数据库中的非规范化和沼泽标准复制的"报告服务器"是我想到的两个; 在进入DW之前,还有其他我应该探索的吗？
为什么数据仓库比上述备选方案更好？如果答案是"它取决于",那么它依赖于什么？
什么时候不应该尝试构建数据仓库？无论背景如何,我都对所谓的"最佳实践"持怀疑态度.肯定有一些情况下DW是错误的选择 - 它们是什么？
是否有任何实际的例子我可以看一下通过引入数据仓库而改进的系统？可以向我解释的东西,端到端,他们需要仓库的决策或分析,他们如何决定放入什么,以及仓库最终如何适应更大的环境？我不想要一个人为的"让我们从AdventureWorks数据库中创建一个多维数据集" - 实现与我无关,我对所涉及的规范和设计以及整体思考过程感兴趣.

我一般不会问多方,但我认为这些都是非常密切相关的.我愿意接受至少解决前4个问题的任何答案,尽管最后一个问题确实有助于在我的脑海中明白这一点.如果有人已经写过关于这一点的链接很好,只要它们相当简洁和具体(链接到Ralph Kimball的主页=无用).

希望我已经明确了问题 - 提前感谢你的答案!

database database-design data-warehouse

Aar*_*ght

lucky-day

48
推荐指数

2
解决办法

6922
查看次数

数据库选择大数据量？

我即将开始一个应该有一个相当大的数据库的新项目.

表的数量不会很大(<15),大多数数据(99%)将包含在一个大表中,这几乎只是插入/读取(没有更新).

该表中的估计数据量将以每天500,000条记录的速度增长,我们应该保留至少1年的时间来进行各种报告.

需要(只读)复制数据库作为备份/故障转移,并且可能用于在高峰时间卸载报告.

我没有那些大型数据库的第一手经验,所以我问的是那些DB在这种情况下最好的选择.我知道Oracle是安全的赌注,但如果有人有类似设置的Postgresql或Mysql的经验,我会更感兴趣.

database evaluation data-warehouse

Mar*_*rko

2012 05-01

40
推荐指数

6
解决办法

6万
查看次数

NoSql和数据仓库

NoSql和数据仓库技术/理论之间有什么关系？

他们分享了什么概念？

它们之间有什么基本区别？

您如何看待每一个可以从另一个中获益/丰富？

我认为您的想法应该有助于两种技术的未来.

更新:

一些有用的链接:

第二次更新:

MongoDB,BI和非关系数据库

data-warehouse nosql

Ait*_*ito

2011 06-24

36
推荐指数

3
解决办法

3万
查看次数

构建完整数据仓库平台的开源工具和技术有哪些？

我正在寻找可能免费或免费试用版的这些开源工具来建立完整的数据仓库堆栈.

我知道很少像Pentaho开源Mondrian服务器,但无法获得任何google结果来设置完整的平台.我不确定这些组件是否相互兼容？有人可以列出他们在链中的位置吗？

open-source data-warehouse

und*_*ack

2018 03-24

35
推荐指数

2
解决办法

4万
查看次数

每月200亿行 - Hbase/Hive/Greenplum /什么？

我想用你的智慧为数据仓库系统找到合适的解决方案.以下是一些可以更好地理解问题的细节:

数据以星型模式结构组织,具有一个BIG事实和~15个维度.
每月20B个事实行
10个维度有100行(有些层次结构)
5个维度有数千行
2个维度有~200K行
2个大尺寸有50M-100M行

针对此DB运行两个典型查询

dimq的热门成员:

select    top X dimq, count(id) 
from      fact 
where     dim1 = x and dim2 = y and dim3 = z 
group by  dimq 
order by  count(id) desc

Run Code Online (Sandbox Code Playgroud)

针对元组的措施:

select    count(distinct dis1), count (distinct dis2), count(dim1), count(dim2),...
from      fact 
where     dim1 = x and dim2 = y and dim3 = z

Run Code Online (Sandbox Code Playgroud)

问题:

执行此类查询的最佳平台是什么
需要什么样的硬件
哪里可以托管(EC2？)

(请忽略此刻的导入和加载问题)

Tnx,
Haggai.

database mapreduce data-warehouse vldb greenplum

作者

2013 12-25

31
推荐指数

2
解决办法

2万
查看次数

标签统计

data-warehouse ×10

database ×7

database-design ×2

olap ×2

business-intelligence ×1

data-modeling ×1

design-patterns ×1

dimensional-modeling ×1

evaluation ×1

fact-table ×1

greenplum ×1

mapreduce ×1

nosql ×1

olap-cube ×1

open-source ×1

star-schema ×1

vldb ×1

标签 统计

标签统计