我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.
我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里?
在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗?并行?灵活性?未来可扩展吗?当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......
你的想法是什么?是不是像用锤子敲打坚果?请不要犹豫,问我任何问题,以澄清情况.提前致谢!!
21/03编辑
更多说明:
- 必须在云端
- 我考虑使用ADL的原因是因为云中没有替代SSIS.有ADF,但它不一样,它编排数据,但它不像SSIS那么灵活
- 我以为我可以使用U-SQL进行一些(基本)转换,但我看到了一些问题
- 有许多我不能做的基本事情:循环,更新,在SQL中编写日志......
- 输出只能是U-SQL表或文件.这种架构看起来不太好(尽管U-SQL对于大文件非常好,如果我需要一个额外的步骤将文件导出到另一个DB或DWH) - 或者这可能是在大数据仓库中完成的方式... 我不知道
- 在我的测试中,1MB文件需要40秒,500MB文件需要1:15s.我无法证明40MB的1MB进程(加上使用ADF上传到数据库/数据仓库)
- 对于用户来说代码看起来没有组织,因为具有许多基本验证的脚本将是U-SQL脚本太长.
不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS.你做什么的?我错了吗?