适用于具有许多任务的工作流的 apache 气流的更快替代方案

use*_*082 5 python workflow etl celery airflow

我目前使用 Apache Airflow 来运行数据聚合和 ETL 工作流。我的工作流相当复杂,一个工作流有 15-20 个任务并有分支。我可以将它们组合起来,但这样做会否定我使用的重试、执行计时器等功能。Airflow 运行良好,只是它在处理如此多的任务时速度很慢。任务之间需要很多时间。

是否有替代方法可以更快地执行任务而任务之间没有间隙?如果可能,我还想尽量减少切换所需的工作量。

Max*_*eev 6

我会推荐Temporal Workflow。它具有对开发人员更友好的编程模型,并可扩展到数量级的更大用例。它也已经用于 Uber 的多个延迟敏感应用程序。