处理数据仓库中的大数据

Bal*_*aji 4 hadoop data-warehouse datamart bigdata

我是大数据概念的学习者.基于我的理解,大数据在处理非结构化数据和高容量方面至关重要.当我们查看数据仓库(DW)的大数据架构时,来自源的数据通过Hadoop(HDFS和Mapreduce)提取,相关的非结构化信息是转换为有效的业务信息,最后通过ETL处理(以及现有的结构化数据处理)将数据注入DW或DataMart.

但是,我想知道DW对组织所需的新技术/新维度模型或存储要求是什么(由于大数据),因为我尝试学习的大多数教程/资源只是在源头讨论Hadoop而不是在目标.由于数据量很大,大数据的引入如何影响组织的预定义报告/特别分析

感谢您的回复

Ron*_*unn 7

这是一个非常广泛的问题,但我会尝试给出一些答案.

Hadoop可以是数据源,数据仓库或"数据湖",是可以从中抽取仓库和市场的数据存储库.

Hadoop和基于RDBMS的数据仓库之间的界限越来越模糊.随着SQL-on-Hadoop成为现实,与基于Hadoop的数据交互变得越来越容易.但是,为了有效,数据中必须有结构.

Hadoop/DW交互的一些示例:

  • Microsoft Application Platform System,在SQL Server和Hadoop之间进行Polybase交互
  • Impala(Cloudera),Stinger(Hortonworks)和其他提供SQL-on-Hadoop的人
  • Actian和Vertica(HP)在Hadoop上提供与RDBMS兼容的MPP

也就是说,Hadoop DW仍然不成熟.它不像基于RDBMS的DW那样高效,缺乏许多安全和操作功能,缺乏SQL功能.在走这条路之前,请仔细考虑您的需求.

您应该问的另一个问题是您是否真的需要这种类型的平台.任何RDBMS都可以处理3-5Tb的数据.SQL Server和PostgreSQL是在商用硬件上处理DW的平台的两个例子,而且可以忽略不计的管理.

那些相同的RDBMS可以处理100Tb的工作负载,但它们需要更多的关注和这种规模的喂养.

MPP RDBMS设备可将数据工作负载处理为Petabyte范围,并且随着扩展而降低管理和运营开销.我怀疑你达到了那个规模,很少有公司这样做:)如果复杂查询的速度是你最重要的因素,你可能会选择MPP设备来获得更小的数据量.由于这个原因,我已经看到MPP设备部署在小到5Tb的数据卷上.

根据加载技术,您可能会发现基于RDBMS的DW加载速度比Hadoop快.例如,我每秒将数十万行加载到PostgreSQL中,并且比SQL Server中的行少一些.在Hadoop中实现相同的结果需要花费更长的时间,因为我必须摄取文件,在Hive中建立它,并将其移动到Parquet以获得类似级别的输出性能.随着时间的推移,我希望这会改变Hadoop的优势,但它还没有完全实现.

你提到了维度建模.如果您的星型模式由事务事实表和SCD0-SCD1维度组成,因此需要只进行插入处理,那么您可能已成功使用SQL-on-Hadoop.如果您需要更新事实(累积快照)或维度(SCD2,SCD3),您可能会在功能和性能方面遇到困难 - 许多实现还不支持UPDATE查询,而那些执行速度很慢.

对不起,没有一个简单的"做这个!" 回答,但这是一个不成熟的领域的复杂话题.我希望这些评论有助于您的思考.