小编Eri*_*eur的帖子

我们正在 10 多家公司之间部署一个数据联盟。Wi 将为所有公司部署多个机器学习模型（一般为高级分析模型），我们将管理所有模型。我们正在寻找一种管理多个服务器、集群和数据科学管道的解决方案。我喜欢 kedro，但不确定在使用 kedro 时管理所有内容的最佳选择是什么。

总之，我们正在寻找最佳解决方案来管理不同服务器和可能的 Spark 集群中的多个模型、任务和管道。我们目前的选择是：

AWS 作为我们的数据仓库和 Databricks 用于管理服务器、集群和任务。我不认为 databricks 的 notebooks 是构建管道和协作工作的好解决方案，所以我想将 kedro 连接到 databricks（它好吗？使用 databricks 安排 kedro 管道的运行容易吗？ )
将 GCP 用于数据仓库并使用 kubeflow (iin GCP) 来部署模型以及管道和所需资源的管理和调度
从 ASW 或 GCP 设置服务器，安装 kedro 并使用气流安排管道（我发现管理 20 个服务器和 40 个管道是一个大问题）

我想知道是否有人知道这些替代方案之间的最佳选择、它们的缺点和优点，或者是否有更多的可能性。

5
推荐指数

1
解决办法

510
查看次数

小编Eri_eur的帖子