使用气流进行实时作业编排

Nut*_*tel 4 orchestration airflow

我有一个作为 Web 服务运行的应用程序,它根据用户请求向 Spark 提交作业。每个用户需要限制作业队列。我计划使用 Airflow 作为编排框架来管理作业队列,虽然它支持并行 DAG 执行,但它针对批处理而不是实时进行了优化。Airflow 是否旨在每秒处理约 200 次 DAG 执行并具有多个队列(每个用户一个),还是我应该寻找替代方案?

Che*_*zhi 5

您是否将数据从一项任务转移到另一项任务?既然你提到了实时,时间在这里重要吗?使用 Airflow,工作流预计大部分是静态的或缓慢变化的。大多数情况下,对于 ETL 批处理,您可以加快气流心跳,但最好有一个带有用例的 POC 进行测试。
以下来自 Airflow 官方文档:https : //airflow.apache.org/#beyond-the-horizo​​n

Airflow 不是数据流解决方案。任务不会将数据从一个移动到另一个(尽管任务可以交换元数据!)。Airflow 不属于 Spark Streaming 或 Storm 空间,它更能与 Oozie 或 Azkaban 相媲美