OLAP,OLTP,数据仓库,分析,分析和数据挖掘如何相关?

use*_*664 4 database olap analytics oltp data-warehouse

我试图了解OLAP,OLTP,数据挖掘,分析等是什么,我觉得我对其中一些概念的理解仍然有点模糊.关于这些主题的信息往往在互联网上以非常复杂的方式解释.


我觉得像这样的问题可能会被关闭,因为它是一个非常广泛的问题,所以我会尝试将其缩小为两个问题:

问题1:

在做了研究后,我理解了以下关于这些概念,是否正确?

  • 分析正在分解复杂的东西,以更好地理解内部运作.
  • 分析是对需要大量数学和统计信息的信息进行预测分析.
  • 有许多类型的数据库,但它们是OLTP(事务性)或OLAP(分析性).
  • OLTP数据库使用ER图,因此更容易更新,因为它们是标准化形式.
  • 相比之下,OLAP使用非规范化星型模式,因此更容易查询
  • OLAP用于预测分析,OLTP通常用于更实际的情况,因为没有冗余.
  • 数据仓库是一种OLAP数据库,通常由多个其他数据库组成.
  • 数据挖掘是一种用于分析的工具,您可以使用计算机软件找出数据之间的关系,以便预测事物(例如客户行为).

问题2:

我对分析和分析之间的区别感到特别困惑.他们说分析是多维分析,但那应该是什么意思呢?

fen*_*nix 10

我将尝试从金字塔的顶部解释你:

商业智能(你没有提到的)是IT中的术语,它代表一个复杂的系统,并从数据中提供有关公司的有用信息.

因此,BI系统的目标是:清晰,准确和有意义的信息.清洁意味着没有技术问题(缺少密钥,不完整的数据等).准确意味着准确 - BI系统也被用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或者使用非活动伙伴等).它已经完成了规则.有意义很难解释,但在简单的英语中,它是你想要的方式的所有数据(甚至是上次会议的excel表).

因此,BI系统有后端:它是数据仓库. DWH只不过是数据库(实例,而不是软件).它可以存储在RDBMS,分析数据库(列式或文档存储类型)或NoSQL数据库中.

数据仓库通常用于我上面解释的整个数据库.可能有许多数据集市(如果使用Kimball模型) - 更常见,或称为企业数据仓库的第三规范化形式(Inmon模型)中的关系系统.

数据集市是DWH中相关的表(星型模式,雪花模式).事实表(非规范化形式的业务流程)和维度表.

每个数据集市代表一个业务流程.示例:DWH有3个数据集市.一个是零售,第二个是出口,第三个是进口.在零售中,您可以看到SKU的总销售额,销售数量,进口价格,利润(度量),日期,商店,城市等(维度).

在DWH中加载数据称为ETL(提取,转换,加载).

  1. 从多个来源提取数据(ERP db,CRM db,excel文件,Web服务......)

  2. 转换数据(干净的数据,连接来自差异源的数据,匹配密钥,挖掘数据)

  3. 加载数据(在特定数据集市中加载转换后的数据)

因注释而编辑: ETL过程通常使用ETL工具创建,或者使用某种编程语言(python,c#ect)和API手动创建.

ETL过程是一组SQL,过程,脚本和规则,分为3个部分(见上文),由元数据控制.它可以安排(每晚,每隔几个小时)或实时(更改数据捕获,触发器,事务).

OLTPOLAP数据处理的类型.OLTP用于事务目的,数据库和软件之间(通常只有一种输入/输出数据).OLAP用于管理目的,这意味着有多个源,历史数据,高选择查询性能,挖掘数据.

因评论而编辑:数据处理是数据从数据库存储和访问的方式.因此,根据您的需求,数据库以不同的方式设置.

来自http://datawarehouse4u.info/的图片:

在此输入图像描述

数据挖掘是在大型数据集中发现模式的计算过程.挖掘的数据可以为您提供更深入的业务流程视图甚至预测.

分析是动词,在BI世界中意味着从数据中获取信息的简单性.多维分析实际上说明了系统如何切割数据(维度在多维数据集内).维基百科说,数据分析是一个检查数据的过程,目的是发现有用的信息.

Analytics是一个名词,它代表了分析过程的结果.

不要对这两个词大惊小怪.