Cloud Composer(Airflow)作业卡住了

Ary*_*azz 2 google-cloud-platform airflow google-cloud-composer

自从我取消了一个耗时太长的任务实例以来,我的Cloud Composer管理人员Airflow被困了几个小时(我们称它为任务A)

我已经清除了所有DAG运行和任务实例,但是有几个正在运行的作业和一个处于“关机”状态的作业(我想是任务A的作业)(我的作业的快照)。

此外,由于最近删除的DAG一直出现在仪表板中,因此调度程序似乎未运行

有没有办法杀死工作或重置调度程序?不拘泥作曲家的任何想法都将受到欢迎。

ch_*_*ike 6

您可以按以下方式重新启动调度程序:

从您的云外壳:

1.确定环境的Kubernetes集群:

gcloud composer environments describe ENVIRONMENT_NAME \
    --location LOCATION 
Run Code Online (Sandbox Code Playgroud)

2.获取凭据并连接到Kubernetes集群:

gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}
Run Code Online (Sandbox Code Playgroud)

3.运行以下命令以重新启动调度程序:

kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -
Run Code Online (Sandbox Code Playgroud)

步骤1和2在这里详细说明。步骤3基本上用其自身替换了“气流计划程序”部署,从而重新启动了服务。

如果重新启动调度程序无济于事,则您可能还需要重新创建Composer环境并在每次发生这种情况时对DAG进行故障排除。

  • 您可以简单地删除`airflow-scheduler` Pod,这将导致Kubernetes用新的Pod替换它。 (2认同)