Data Lake Analytics U-SQL EXTRACT速度(本地与Azure)

Question

Data Lake Analytics U-SQL EXTRACT速度(本地与Azure)

use*_*104 3 azure azure-storage-blobs azure-data-lake u-sql

一直在考虑使用Azure Data Lake Analytics功能来尝试和操作我存储在Azures Blob存储中的一些Gzip的xml数据,但我遇到了一个有趣的问题.本质上,当在本地使用U-SQL处理这些xml文件中的500个时,处理时间非常快,在本地使用1 AU大约需要40秒(这似乎是限制).但是,当我们使用5 AU在Azure中运行相同的功能时,处理需要17分钟以上.

我们最终想要将其扩展到大约20,000个文件甚至更多但是已经减少了设置以尝试和测量速度.

每个文件包含50个xml对象的集合(子元素中包含不同数量的详细信息),Gzip时文件大约为1 MB,而不是5MB到10MB之间.99%的处理时间都花在了u-sql脚本的EXTRACT部分.

事情尝试过,

在处理之前解压缩文件,这与压缩版本大致相同,当然远不及我在本地看到的40秒.将数据从Blob存储移动到Azure Data Lake存储,花费的时间完全相同.暂时从文件中删除了大约一半的数据并重新运行,令人惊讶的是,这也没有花费超过一分钟的时间.添加更多AU以增加处理时间,这非常有效,但由于可能产生的成本而不是长期解决方案.在我看来,从Azure Blob存储/ Azure数据湖获取数据时,似乎存在一个主要瓶颈.我错过了一些明显的东西.

PS如果您需要更多信息,请告诉我.

谢谢,

缺口.

Answer 1

小智 7

参见https://www.slideshare.net/MichaelRys/best-practices-and-performance-tuning-of-usql-in-azure-data-lake-sql-konferenz-2018的幻灯片31 .有一个预览选项

SET @@ FeaturePreviews ="InputFileGrouping:on";

它将小文件分组为有限的顶点.

归档时间：	7 年，7 月前
查看次数：	344 次
最近记录：	7 年，7 月前