Slurm:如何重新启动失败的工作人员作业

duh*_*ime 4 hpc sungridengine slurm

如果在 slurm 集群上运行阵列作业,如何重新启动失败的工作作业?

在 Sun Grid Engine 队列中,可以#$ -r y向作业文件添加内容以指示作业失败后应重新启动 — Slurm 中与此标志等效的是什么?

Tun*_*ung 5

您可以使用--requeue

#SBATCH --requeue                   ### On failure, requeue for another try
Run Code Online (Sandbox Code Playgroud)

--重新排队

指定批处理作业应符合重新排队的条件。在节点发生故障之后,或者在被更高优先级的作业抢占时,系统管理员可以显式地对作业重新排队。当作业重新排队时,批处理脚本将从头开始启动。另请参阅 --no-requeue 选项。JobRequeue 配置参数控制集群上的默认行为。

在此处查看更多信息: https: //slurm.schedmd.com/sbatch.html#lbAE