chr*_*non 4 airflow airflow-scheduler
有没有人报道他们能够让Airflow在他们公司扩展多少?我正在考虑实施Airflow来执行5,000多个任务,每个任务每小时运行一次,有一天可以扩展到20,000多个任务.在检查调度程序时,它看起来可能是一个瓶颈,因为只有一个实例可以运行,而且我关心调度程序将难以跟上的许多任务.我可以做?
我们每天在我的公司执行数千项任务,并且在2年的大部分时间里一直使用Airflow.这些dags每15分钟运行一次,并通过可随时更改的配置文件生成(从UI提供).
简短的回答 - 是的,根据您的基础设施,它肯定可以扩展到那个.一些新的1.10功能应该比运行所有这些任务的1.8版本更容易.我们在一个大型Mesos/DCOS上运行了这个,它经过了大量的微调以达到稳定点.
答案很长 - 虽然它可以扩展到那个,但我们发现更好的解决方案是具有不同配置的多个Airflow实例(调度程序设置,工作人员数量等)针对它们运行的类型dag进行了优化.运行长时间运行的机器学习作业的一组DAG应托管在与运行5分钟ETL作业的Airflow实例不同的Airflow实例上.这也使不同团队更容易维护他们负责的工作,并且可以更轻松地迭代所需的任何微调.