适用于大规模复杂、任务关键型数据和机器学习流程的工作流自动化平台
我浏览了相当多的文档,但我不明白为什么它是“数据和机器学习”。在我看来,它是容器编排(此处为 Kubernetes)之上的工作流管理器,其中工作流管理器意味着我可以定义有向无环图(DAG),然后将 DAG 节点部署为容器,并且 DAG 是跑步。
当然,这对于“数据和机器学习”来说非常有用且重要,但我也可以将它用于任何其他微服务 DAG。除了功能/细节之外,这与https://airflow.apache.org或其他工作流程管理器(其中有很多)有何不同。还有更专门的“数据和机器学习”工作流程管理器,例如https://spark.apache.org。
作为软件架构师我应该记住什么?