小编Eri*_*eur的帖子

DataBricks + Kedro Vs GCP + Kubeflow Vs 服务器 + Kedro + Airflow

我们正在 10 多家公司之间部署一个数据联盟。Wi 将为所有公司部署多个机器学习模型(一般为高级分析模型),我们将管理所有模型。我们正在寻找一种管理多个服务器、集群和数据科学管道的解决方案。我喜欢 kedro,但不确定在使用 kedro 时管理所有内容的最佳选择是什么。

总之,我们正在寻找最佳解决方案来管理不同服务器和可能的 Spark 集群中的多个模型、任务和管道。我们目前的选择是:

  • AWS 作为我们的数据仓库和 Databricks 用于管理服务器、集群和任务。我不认为 databricks 的 notebooks 是构建管道和协作工作的好解决方案,所以我想将 kedro 连接到 databricks(它好吗?使用 databricks 安排 kedro 管道的运行容易吗? )

  • 将 GCP 用于数据仓库并使用 kubeflow (iin GCP) 来部署模型以及管道和所需资源的管理和调度

  • 从 ASW 或 GCP 设置服务器,安装 kedro 并使用气流安排管道(我发现管理 20 个服务器和 40 个管道是一个大问题)

我想知道是否有人知道这些替代方案之间的最佳选择、它们的缺点和优点,或者是否有更多的可能性。

google-cloud-platform databricks kedro

5
推荐指数
1
解决办法
510
查看次数

标签 统计

databricks ×1

google-cloud-platform ×1

kedro ×1