La-*_*a-D 4 azure bigdata azure-data-factory azure-pipelines
Azure 数据工厂数据流源中的两种源类型“数据集”和“内联”之间有什么区别?在什么情况下我应该使用其中一种而不是另一种?
我已经阅读了微软的官方文档,但我无法弄清楚:
当一种格式同时支持内联和数据集对象时,两者都有好处。数据集对象是可重用的实体,可用于其他数据流和活动(例如复制)。当您使用强化模式时,这些可重用实体特别有用。数据集不基于 Spark。有时,您可能需要覆盖源转换中的某些设置或架构投影。
当您使用灵活的模式、一次性源实例或参数化源时,建议使用内联数据集。如果您的源高度参数化,则内联数据集允许您不创建“虚拟”对象。内联数据集基于 Spark,其属性是数据流固有的。
Joe*_*ran 10
数据集是一个额外的抽象级别,并且在历史上是必需的。数据集肯定有一席之地,因为它们提供了额外的功能,例如模式和参数,但最初的要求意味着您的存储库中经常会出现许多数据集对象,即使对于一次性项目也是如此。
内联允许您访问某些(但不是全部)链接服务资源,而无需创建另一个数据集对象。如果您的操作不需要模式,或者不需要在多个项目中重用的数据集对象,那么内联是一个更干净的选项。我会提到这一点,因为您引用的文档确实如此:内联可以使用管道参数,因此解决方案仍然可以是动态的。
至于建议,我会从内联开始,然后在情况合适时逐渐转向数据集。
| 归档时间: |
|
| 查看次数: |
9392 次 |
| 最近记录: |