use*_*104 3 azure azure-storage-blobs azure-data-lake u-sql
一直在考虑使用Azure Data Lake Analytics功能来尝试和操作我存储在Azures Blob存储中的一些Gzip的xml数据,但我遇到了一个有趣的问题.本质上,当在本地使用U-SQL处理这些xml文件中的500个时,处理时间非常快,在本地使用1 AU大约需要40秒(这似乎是限制).但是,当我们使用5 AU在Azure中运行相同的功能时,处理需要17分钟以上.
我们最终想要将其扩展到大约20,000个文件甚至更多但是已经减少了设置以尝试和测量速度.
每个文件包含50个xml对象的集合(子元素中包含不同数量的详细信息),Gzip时文件大约为1 MB,而不是5MB到10MB之间.99%的处理时间都花在了u-sql脚本的EXTRACT部分.
事情尝试过,
在处理之前解压缩文件,这与压缩版本大致相同,当然远不及我在本地看到的40秒.将数据从Blob存储移动到Azure Data Lake存储,花费的时间完全相同.暂时从文件中删除了大约一半的数据并重新运行,令人惊讶的是,这也没有花费超过一分钟的时间.添加更多AU以增加处理时间,这非常有效,但由于可能产生的成本而不是长期解决方案.在我看来,从Azure Blob存储/ Azure数据湖获取数据时,似乎存在一个主要瓶颈.我错过了一些明显的东西.
PS如果您需要更多信息,请告诉我.
谢谢,
缺口.
小智 7
参见https://www.slideshare.net/MichaelRys/best-practices-and-performance-tuning-of-usql-in-azure-data-lake-sql-konferenz-2018的幻灯片31 .有一个预览选项
SET @@ FeaturePreviews ="InputFileGrouping:on";
它将小文件分组为有限的顶点.
| 归档时间: |
|
| 查看次数: |
344 次 |
| 最近记录: |