数据仓库建模:Data Vault 与 Persistent Staging Area

use*_*100 5 sql database etl data-warehouse data-vault

考虑以下两个 DWH 架构:

带有原始数据库的 DWH,层:

  • 源系统
  • 暂存区(在每次加载时截断,源表的准确模式)
  • 原始数据保险库(建模为数据保险库,包含记录历史、以源系统结构建模的中心/卫星/链接,不应用业务规则)
  • 数据集市(维度模型、应用的业务规则)

DWH 与 Persistent Staging Area(称为 PSA 或 HDA),层数:

  • 源系统
  • 暂存区(在每次加载时截断,源表的准确模式)
  • PSA(包含记录历史、源表架构 + date_load/date_load_end 列等)
  • 数据集市(维度模型、应用的业务规则)

与 PSA 概念相比,原始数据保险库概念有什么好处吗?在我看来,Data Vault 建模在 ETL 方面增加了不必要的复杂性,并且在性能方面也较慢。

很难找到一个真正好的答案,有什么想法吗?

谢谢!

小智 1

数据仓库与持久暂存区域对我来说听起来就像苹果和梨 - 很难比较。您不应该在不了解业务本体的情况下尝试定义数据仓库来捕获源数据 - 否则您正在构建一个源系统保管库,这对业务没有任何好处或几乎没有好处。对我来说,在 PSA 或数据湖上构建数据仓库更有意义。将数据作为源系统的映像,然后逐步从中构建可持续的数据收集。