MMa*_*tin 2 azure azure-data-lake u-sql sql-data-warehouse
我正处于使用Azure数据仓库中的外部表从Azure Data Lake读取的位置.
这使我们能够使用众所周知的SQL从数据湖中读取数据.
但是,另一种选择是使用Data Lake Analytics或HDInsight的某些变体.
表现明智,我没有看到太多差异.我假设数据仓库在后台运行某种形式的分布式查询,转换为U-SQL(?),那么我们为什么要使用稍微不同的U-SQL语法的Data Lake Analytics?
由于SQL中也提供了python脚本,我觉得我缺少Data Lake Analytics的主要目的,除了成本(按批次工作付费,而不是数据库的恒定运行时间).
如果您的主要目的是查询存储在Azure数据仓库(ADW)中的数据,那么使用Azure Data Lake Analytics(ADLA)并没有什么好处.但是,只要您将其他(非)结构化数据存储在ADLS中,例如json文档或csv文件,ADLA的好处就变得清晰,因为U-Sql允许您使用(un)加载存储在ADW中的关系数据存储在ADLS中的结构化/ nosql数据.
此外,它使您可以使用U-Sql准备此其他数据以便在ADW中直接导入,因此不再需要Azure数据工厂将数据导入数据仓库.有关更多信息,请参阅此博文:
ADLS和SQL DW的常见用例如下.原始数据从各种来源被摄入ADLS.然后,ADL Analytics用于清理数据并将其处理为加载就绪格式.从那里,可以通过PolyBase将高价值数据导入Azure SQL DW.
..
您可以使用外部表上的Create Table As Select(CTAS)语句将以ORC,RC,Parquet或Delimited Text文件格式存储的数据直接导入SQL DW.
| 归档时间: |
|
| 查看次数: |
1568 次 |
| 最近记录: |