Car*_*eno 7 azure azure-data-lake u-sql
我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.
我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里?
在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗?并行?灵活性?未来可扩展吗?当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......
你的想法是什么?是不是像用锤子敲打坚果?请不要犹豫,问我任何问题,以澄清情况.提前致谢!!
21/03编辑 更多说明:
不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS.你做什么的?我错了吗?
对我来说,如果数据是高度结构化和关系型的,那么它的正确位置就是关系型数据库.在Azure中,您有以下几种选择:
对于所有数据库选项,您可以使用群集列存储索引(ADW中的默认值),它可以提供5x到10x之间的大规模压缩.
一年400MB每年总计~143GB,在现代数据仓库术语中通常没有那么多,通常以兆兆字节(TB)为单位.
Azure Data Lake Analytics(ADLA)的用武之地是在普通SQL中无法做到的事情,例如:
ADLA还提供联合查询,能够"查询数据所在的位置",即将数据库中的结构化数据与湖中的非结构化数据结合在一起.
您的决定似乎与您是否应该使用云有关.如果您需要云的弹性和可扩展功能,那么Azure数据工厂是将数据从一个地方移动到另一个地方的工具.
HTH
当心。这个问题可能会因为过于广泛而被关闭。
支持和反对的论点有很多。我们不能在这里讨论所有这些。
ADL 并不是 SSIS 的替代品。顾问的回答一如既往......这取决于你在做什么/试图做什么。
一个简单的答案可能是。ADL 是无限的且高度可扩展的。SSIS 不是。但是,是的,由于可扩展性,ADL 对于小文件具有较高的入口点。
一般来说,我认为这两种技术没有可比性。
如果您想要 Azure 中的 SSIS。等待 MS 将其作为 PaaS 发布。或者使用虚拟机。
归档时间: |
|
查看次数: |
2225 次 |
最近记录: |