我目前使用 Apache Airflow 来运行数据聚合和 ETL 工作流。我的工作流相当复杂,一个工作流有 15-20 个任务并有分支。我可以将它们组合起来,但这样做会否定我使用的重试、执行计时器等功能。Airflow 运行良好,只是它在处理如此多的任务时速度很慢。任务之间需要很多时间。
是否有替代方法可以更快地执行任务而任务之间没有间隙?如果可能,我还想尽量减少切换所需的工作量。
python workflow etl celery airflow
airflow ×1
celery ×1
etl ×1
python ×1
workflow ×1