DWH 和 ETL 解释

iJa*_*ava 2 etl dimensional-modeling

在这篇文章中,我不是在问任何教程,如何做某事,在这篇文章中,我请求您的帮助,如果有人可以用简单的话解释我,什么是 DWH(数据仓库)和什么是 ETL。

当然,我在谷歌和 YouTube 上搜索了很多,我发现了很多文章、视频,但我仍然不太确定它是什么。

我为什么要问?
在申请工作之前我需要非常了解它。

Mar*_*icz 5

这个答案绝不应该被视为数据仓库的完整定义。这只是我试图用外行人的术语来解释这个术语。

事务(操作、OLTP)和分析(数据仓库)系统都可以使用相同的 RDBMS 作为后端,并且它们可能包含完全相同的数据。然而,它们的数据模型将完全不同,因为它们针对不同的访问模式进行了优化

在事务系统中,您通常使用单行(例如客户或发票)并且写入一致性至关重要,因此数据模型是标准化的。相反,数据仓库针对读取大量行(例如上一年的所有发票)和聚合数据进行了优化,因此维度模型被扁平化(星型模式、Kimball 维度和事实)。

事务系统仅存储实体的当前版本(即当前客户的地址),而数据仓库可以使用缓慢变化的维度(SCD)来保存历史记录(例如客户的所有地址以及日期范围以指示每个地址何时有效)。

ETL 代表提取、转换、加载,它的过程是:

  1. 从交易系统中提取数据,
  2. 将其转换为维度格式,
  3. 加载到数据仓库中。

  • 我只想补充一点 ETL = 提取、转换、加载 (3认同)