在气流任务之间共享大的中间状态

Question

我们与Celery执行者一起进行了Airflow部署。

我们的许多DAG都需要对BashOperator或中的某些文件进行本地处理PythonOperator。

但是，根据我们的理解，给定DAG的任务可能并不总是安排在同一台计算机上。

我到目前为止收集的任务之间的状态共享选项：

使用Celery队列将DAG路由到同一工作人员（docs）-起初该选项似乎很吸引人，但是为了避免将所有路由都路由到一个执行者或制作100万个队列，什么合适的设置方式？

在运行执行程序的所有计算机上使用共享的网络存储 -似乎增加了基础架构负担，但有可能。

在Airflow中的任务之间共享大型中间状态（例如文件）的推荐方法是什么？

Answer 1

jhn*_*lvr 6

澄清一下：无论您如何设置气流，都只会运行一个执行器。

但是，您要问的问题确实适用于芹菜工人。如果您使用Celery Executor，则可能会有多个芹菜工人。

使用网络共享存储解决了多个问题：

我将使用网络存储，并将输出文件名写入xcom。然后，当您需要输入上一个任务的输出时，您将从该任务的Xcom中读取文件名并处理该文件。