Chr*_*ens 5 azure azure-data-lake
我认为使用Data Lake与数据仓库的关键是将ETL(提取,转换,加载)过程反转为LET(加载,提取,转换).不提取这些数据,转换并将其加载到表中会让我们回到我们开始的地方吗?
恕我直言,数据湖的意义在于存储所有类型的数据:非结构化,半结构化和结构化.Azure版本是Azure Data Lake Store(ADLS),其主要功能是可扩展的大容量存储.
另外,还有一个产品Azure Data Lake Analytics(ADLA).此分析产品可以与ADLS进行交互,还可以与blob存储,VM上的SQL(IaaS)和两个PaaS数据库产品,SQL数据库和SQL数据仓库以及HDInsight进行交互.它有一个强大的批处理语言U-SQL,它是SQL和.net的组合,用于询问和操作这些数据存储.它还有一个数据库选项,在适当的情况下,您可以存储以表格格式处理的数据.
一个例子可能是您在湖中有一些非结构化数据,您运行批量输出并希望存储结构化中间输出.您可以在此处将输出存储在ADLA数据库表中.我倾向于使用它们,我可以证明我可以从中获得性能改进和/或想要利用不同的索引选项.
我不倾向于将这些视为仓库表,因为它们尚未与其他产品良好地交互,即它们还没有端点/不可见,例如Azure Data Factory无法从那里移动表.
最后,我倾向于将ADLS视为类似于HDFS和U-SQL/ADLA,类似于Spark.
HTH
| 归档时间: |
|
| 查看次数: |
1110 次 |
| 最近记录: |