Azure 数据工厂与工厂

mit*_*rts 6 azure azure-data-factory

我目前正在使用数据工厂构建一个 Azure 数据湖,并且正在寻求关于拥有多个数据工厂与只有一个数据工厂的一些建议。

目前我有一个数据工厂,即从一个 EBS 实例为企业下的一家特定公司采购数据。尽管将来可能会有其他 EBS 实例和其他公司(以其他应用程序作为来源)合并到工厂中 - 我认为图表可能会变得有点混乱。

我四处搜索,找到了这个站点,它建议将所有内容都保存在一个数据工厂中以重用链接服务。我想这是一件好事,但是由于我已经为一个数据工厂编写了构建脚本,因此再次构建链接服务以指向同一个数据湖将非常容易。

https://www.purplefrogsystems.com/paul/2017/08/chaining-azure-data-factory-activities-and-datasets/

只有一个数据工厂实例的优点:

  • 只需创建数据集,链接服务一次
  • 可以在一张图中看到整体谱系

缺点

  • 随着时间的推移可能会变得混乱
  • 甚至可以找到你所追求的管道

有没有人在那里部署了一些 Azure 数据工厂的大型部署,它们可能会引入数千个数据源,将它们混合在一起并进行转换?很想听听你的想法。

Mar*_*ita 5

我的建议是只拥有一个,因为这样可以更轻松地配置多个集成运行时(网关)。如果您决定拥有多个数据工厂,请考虑到一台电脑只能安装 1 个集成运行时,并且集成运行时只能注册到 1 个数据工厂实例。

我认为您列出的缺点都可以通过命名规则来解决。如果您将它们命名为:Pipeline_[数据库名称] [数据库模式] [表名称] ,那么找到您想要的管道并不麻烦。

我有一个包含数千个数据集和管道的项目,它并不比小型项目更难处理。

希望这有帮助!