考虑以下两个 DWH 架构:
带有原始数据库的 DWH,层:
- 源系统
- 暂存区(在每次加载时截断,源表的准确模式)
- 原始数据保险库(建模为数据保险库,包含记录历史、以源系统结构建模的中心/卫星/链接,不应用业务规则)
- 数据集市(维度模型、应用的业务规则)
DWH 与 Persistent Staging Area(称为 PSA 或 HDA),层数:
- 源系统
- 暂存区(在每次加载时截断,源表的准确模式)
- PSA(包含记录历史、源表架构 + date_load/date_load_end 列等)
- 数据集市(维度模型、应用的业务规则)
与 PSA 概念相比,原始数据保险库概念有什么好处吗?在我看来,Data Vault 建模在 ETL 方面增加了不必要的复杂性,并且在性能方面也较慢。
很难找到一个真正好的答案,有什么想法吗?
谢谢!