相关疑难解决方法(0)

使用Azure Data Lake Analytics与传统ETL方法的原因

我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.

我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里?

在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗?并行?灵活性?未来可扩展吗?当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......

你的想法是什么?是不是像用锤子敲打坚果?请不要犹豫,问我任何问题,以澄清情况.提前致谢!!

21/03编辑 更多说明:

  1. 必须在云端
  2. 我考虑使用ADL的原因是因为云中没有替代SSIS.有ADF,但它不一样,它编排数据,但它不像SSIS那么灵活
  3. 我以为我可以使用U-SQL进行一些(基本)转换,但我看到了一些问题
    • 有许多我不能做的基本事情:循环,更新,在SQL中编写日志......
    • 输出只能是U-SQL表或文件.这种架构看起来不太好(尽管U-SQL对于大文件非常好,如果我需要一个额外的步骤将文件导出到另一个DB或DWH) - 或者这可能是在大数据仓库中完成的方式... 我不知道
    • 在我的测试中,1MB文件需要40秒,500MB文件需要1:15s.我无法证明40MB的1MB进程(加上使用ADF上传到数据库/数据仓库)
    • 对于用户来说代码看起来没有组织,因为具有许多基本验证的脚本将是U-SQL脚本太长.

不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS.你做什么的?我错了吗?

azure azure-data-lake u-sql

7
推荐指数
2
解决办法
2225
查看次数

标签 统计

azure ×1

azure-data-lake ×1

u-sql ×1