使用 Airflow dag run 创建 EMR 集群,任务完成后,EMR 将终止

gau*_*tri 2 hadoop amazon-emr apache-spark airflow

我有 Airflow 作业,它们在 EMR 集群上运行良好。我需要的是,假设我有 4 个需要 EMR 集群的气流作业,假设需要 20 分钟才能完成任务。为什么我们不能在 DAG 运行时创建 EMR 集群,一旦作业完成,它将终止创建的 EMR 集群。

y2k*_*ham 8

毫无疑问,这将是最有效地利用资源。让我警告你:这里面有很多细节;我会尽量列出尽可能多的内容。我鼓励你添加你自己的综合答案,列出你遇到的任何问题和解决方法(一旦你完成了这个)


关于集群创建/终止


关于作业提交