相关疑难解决方法(0)

因此，我为dags目录中的每个DAG创建了一个文件，现在必须将它们连接起来以便顺序执行。我确定了两种方法可以完成此操作：

SubDagOperator

在我的演示中无故障工作

可能导致死锁，但是有简单的解决方案 ; 使用它们仍然有很多阴霾

SubDag的dag_id 前缀必须是其父级的前缀，这将在应该也是独立运行的顶级 DAG 上施加荒谬的 ID

TriggerDagRunOperator

可在我的演示中使用，但并行运行（不按顺序运行），因为它不等待触发的DAG完成才移至下一个

ExternalTaskSensor 可能有助于克服上述限制，但会使事情变得很混乱

我的问题是

如何克服的局限性parent_id前缀dag_id的SubDagS'

如何迫使TriggerDagRunOperatorS 等待DAG完成？

是否有其他替代/更好的方法可以将独立的（顶级）DAG连接在一起？

我为每个顶级DAG 创建单独文件（仅在输入方面有所不同的DAG）的方法是否有解决方法？

我正在使用puckel / …

airflow

y2k*_*ham

2018 07-15

6
推荐指数

1
解决办法

1073
查看次数

获取所有气流叶节点/任务

我想构建一些我需要捕获所有叶子任务并为它们添加下游依赖项以在我们的数据库中完成作业的东西.有没有一种简单的方法可以在Airflow中找到DAG的所有叶节点？

python airflow apache-airflow

Ace*_*rey

lucky-day

5
推荐指数

1
解决办法

589
查看次数

仅当 AWS athena 表中的新分区/数据可用时，如何使用 python 中的 DAG 触发 Airflow 任务？

我有一个像下面这样的场景：

仅当源表 (Athena) 中有新数据可用时才触发 aTask 1和。Task 2当一天中有新的数据分区时，应该触发任务 1 和任务 2。

仅在和Task 3完成时触发Task 1Task 2

仅触发Task 4完成Task 3

我的代码

from airflow import DAG from airflow.contrib.sensors.aws_glue_catalog_partition_sensor import AwsGlueCatalogPartitionSensor from datetime import datetime, timedelta from airflow.operators.postgres_operator import PostgresOperator from utils import FAILURE_EMAILS yesterday = datetime.combine(datetime.today() - timedelta(1), datetime.min.time()) default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': yesterday, 'email': FAILURE_EMAILS, 'email_on_failure': False, 'email_on_retry': False, 'retries': 1, 'retry_delay': timedelta(minutes=5) } dag = DAG('Trigger_Job', default_args=default_args, …
Run Code Online (Sandbox Code Playgroud)

python directed-acyclic-graphs airflow amazon-athena airflow-scheduler

pan*_*kaj

2020 04-16

5
推荐指数

1
解决办法

2685
查看次数

标签统计

airflow ×5

python ×3

airflow-scheduler ×1

amazon-athena ×1

apache-airflow ×1

directed-acyclic-graphs ×1

etl ×1

如何在Airflow中设置DAG之间的依赖关系？

气流触发规则"all_done"和"all_success"之间有什么区别？

将顶级DAG连接在一起

获取所有气流叶节点/任务

仅当 AWS athena 表中的新分区/数据可用时，如何使用 python 中的 DAG 触发 Airflow 任务？

标签 统计

标签统计