制作中的 MWAA - 任务因未知原因而排队

val*_*val 7 airflow airflow-scheduler mwaa airflow-2.x

有人在生产中使用 MWAA 吗?

目前,我们有大约 500 个 DAG 正在运行,我们看到了意外的行为,任务由于未知原因而处于“排队”状态。

任务处于“排队”状态,这不是有效的执行状态。必须清除该任务才能运行。

它是随机发生的,可以完美运行一天,然后一些任务将保持排队状态。任务将永远保持这种状态,除非我们手动将它们标记为失败。

即使池是空的,DAG 运行也可以保持在这种“排队”状态,我没有看到任何解释这一点的原因。

大约 5% 的任务会发生这种情况,而其他所有任务都运行顺利。

您遇到过这种行为吗?

Kev*_* Vo 6

我在 MWAA 也遇到过这种情况。AWS 向我推荐的解决方案是通过 Web UI 将以下选项添加到Airflow 配置选项:

celery.sync_parallelism = 1 
core.dag_file_processor_timeout = 150
core.dagbag_import_timeout = 90 
core.min_serialized_dag_update_interval = 300
scheduler.dag_dir_list_interval = 600 
scheduler.min_file_process_interval = 300
scheduler.parsing_processes = 2 
scheduler.processor_poll_interval = 60 
Run Code Online (Sandbox Code Playgroud)