数据库、数据集市、数据仓库、数据湖

Ash*_*lix 7 database comparison data-warehouse datamart data-lake

寻找高层差异/比较

  • 数据库
  • 数据集市(自上而下的方法)
  • 数据仓库
  • 数据湖
  • 数据湖屋

当具体情况不详时,请使用相对比较。

Ash*_*lix 9

下面是所提到的各个数据层之间的高级比较。如果其中任何需要更正,请随时发表评论。

特征 数据库 数据库 数据仓库 数据湖 数据湖屋
来源 单身的 单身的 多种的 多种的 多种的
结构 结构化的 结构化的 结构化的 生的 结构化、半结构化和非结构化
目的 决定 决定 决定 决定 决定
贮存 集中 去中心化 集中 集中 集中
数据格式 详细的 总结 既详细又概括 全部 全部
灵活性 低的 中等的 中等的 高的 高的
主要用途 交易性 报告 分析和报告 分析 分析
成本 低的 中等的 中等的 高的 高的
数据量 低的 低的 中等的 高的 高的
发展 自顶向下 自下而上 自顶向下 全部 全部
设计时间 中等的 中等的 高的 低的 低的
挥发性 中等的 低的 没有任何 没有任何 没有任何
数据操作 增删改查 CR 克鲁格鲁 CR 增删改查
学科领域 单身的 单身的 多种的 多种的 多种的
设计方案 关系型 多维 关系型 无架构 杂交种

笔记:

  • 如果数据存储在基于云的对象存储系统中,数据湖房的成本可能低于数据仓库。
  • 数据湖的数据量可能比数据仓库或数据集市高得多。
  • 如果数据已经存储在基于云的对象存储系统中,则数据湖房的开发时间可能比数据仓库要短。
  • 数据湖的波动性可能高于数据仓库或数据集市,因为数据并不总是结构化的并且可能会频繁更改。

配合间隙

  • 如果您需要一个低成本、灵活的结构化数据存储库,那么数据库是一个不错的选择。
  • 如果您需要一个用于报告目的的汇总数据存储库,那么数据集市是一个不错的选择。
  • 如果您需要一个用于分析和报告目的的详细数据存储库,那么数据仓库是一个不错的选择。
  • 如果您需要一个用于分析和机器学习目的的所有类型数据的存储库,那么数据湖站是一个不错的选择。