Azure 数据工厂数据流中的“数据集”和“内联”源之间的区别？

Question

Azure 数据工厂数据流源中的两种源类型“数据集”和“内联”之间有什么区别？在什么情况下我应该使用其中一种而不是另一种？

我已经阅读了微软的官方文档，但我无法弄清楚：

当一种格式同时支持内联和数据集对象时，两者都有好处。数据集对象是可重用的实体，可用于其他数据流和活动（例如复制）。当您使用强化模式时，这些可重用实体特别有用。数据集不基于 Spark。有时，您可能需要覆盖源转换中的某些设置或架构投影。

当您使用灵活的模式、一次性源实例或参数化源时，建议使用内联数据集。如果您的源高度参数化，则内联数据集允许您不创建“虚拟”对象。内联数据集基于 Spark，其属性是数据流固有的。

Answer 1

数据集是一个额外的抽象级别，并且在历史上是必需的。数据集肯定有一席之地，因为它们提供了额外的功能，例如模式和参数，但最初的要求意味着您的存储库中经常会出现许多数据集对象，即使对于一次性项目也是如此。

内联允许您访问某些（但不是全部）链接服务资源，而无需创建另一个数据集对象。如果您的操作不需要模式，或者不需要在多个项目中重用的数据集对象，那么内联是一个更干净的选项。我会提到这一点，因为您引用的文档确实如此：内联可以使用管道参数，因此解决方案仍然可以是动态的。

至于建议，我会从内联开始，然后在情况合适时逐渐转向数据集。

我不同意这是“最佳实践”，因为模式并不总是增加价值，并且在某些情况下可能会增加不必要的复杂性。如果您的解决方案受益于架构，那么就使用架构，但有很多解决方案不需要它。 (2认同)