功能中的气流 DAG?

pgr*_*ean 5 python airflow airflow-scheduler

我在$AIRFLOW_HOME/dags. 我创建了以下文件:

- common
  |- __init__.py   # empty
  |- common.py     # common code
- foo_v1.py        # dag instanciation
Run Code Online (Sandbox Code Playgroud)

common.py

default_args = ...

def create_dag(project, version):
  dag_id = project + '_' + version
  dag = DAG(dag_id, default_args=default_args, schedule_interval='*/10 * * * *', catchup=False)
  print('creating DAG ' + dag_id)

  t1 = BashOperator(
    task_id='print_date',
    bash_command='date',
    dag=dag)

  t2 = BashOperator(
    task_id='sleep',
    bash_command='sleep 5',
    retries=3,
    dag=dag)

  t2.set_upstream(t1)
Run Code Online (Sandbox Code Playgroud)

foo_v1.py

 from common.common import create_dag

 create_dag('foo', 'v1')
Run Code Online (Sandbox Code Playgroud)

使用 python 测试脚本时,看起来没问题:

 $ python foo_v1.py
 [2018-10-29 17:08:37,016] {__init__.py:57} INFO - Using executor SequentialExecutor
 creating DAG pgrandjean_pgrandjean_spark2.1.0_hadoop2.6.0
Run Code Online (Sandbox Code Playgroud)

然后我在本地启动网络服务器和调度程序。我的问题是我没有看到任何带有 id 的 DAG foo_v1。没有pyc正在创建的文件。做错了什么?为什么代码没有foo_v1.py被执行?

Ser*_*kov 7

要被 Airflow 找到,返回的 DAG 对象create_dag()必须在foo_v1.py模块的全局命名空间中。将 DAG 放置在全局命名空间中的一种方法是将其分配给模块级变量:

from common.common import create_dag

dag = create_dag('foo', 'v1')
Run Code Online (Sandbox Code Playgroud)

另一种方法是使用globals()以下方法更新全局命名空间:

globals()['foo_v1'] = create_dag('foo', 'v1')
Run Code Online (Sandbox Code Playgroud)

后者可能看起来有点矫枉过正,但它对于动态创建多个 DAG很有用。例如,在 for 循环中:

for i in range(10):
    globals()[f'foo_v{i}'] = create_dag('foo', f'v{i}')
Run Code Online (Sandbox Code Playgroud)

注意:*.py放置在$AIRFLOW_HOME/dags(甚至在子目录中,例如common在您的情况下)的任何文件都将被 Airflow 解析。如果您不想要这个,您可以使用.airflowignore打包 DAG