V.Y*_*Yan 3 airflow apache-airflow
在airflow.cfg有一个名为的部分[operators],其中default_cpus设置为1和,default_ram并且default_disk都设置为512.
我想了解如果我增加这些参数,是否可以提高处理速度.
我查看了源代码,这些设置可供所有操作员使用,但它们从未被操作员或任何执行者使用.
所以我回到历史记录中并查看了引入这些设置的提交,并引用了导致该PR 的JIRA票证:
与资源管理器(如yarn和mesos)一起使用的可选资源要求
但是,Mesos执行程序是一个社区贡献,它不利用这些属性,只为每个任务分配相同数量的资源,而YARN执行程序还没有AFAIK(从1.9版开始).
我曾经与Airflow团队进行过讨论,以了解是否有办法使用Mesos执行程序在每个任务的基础上分配资源,他们回答我的策略是使用Celery执行程序为任务分配资源,以防它可能是帮助您了解如何管理资源.
关于您在更一般意义上提出的核心问题,您可以从与分配的资源相关的任务中获得的吞吐量类型在很大程度上取决于任务本身:当然是计算密集型的如果您为多个核心分配多个核心,那么可以利用多个处理器的任务将会出现速度障碍,而I/O密集型任务(如在不同系统之间复制数据)可能看不到太多改进.