如果作业失败,我如何自动重新排队 SLURM 的 srun 作业?

w.e*_*ric 3 slurm

我必须运行 300 个相同模型的作业(黑匣子)。然而,有时模型内部会出现分段错误并显示以下错误消息:

srun: error: nodexyz: task 0: Segmentation fault
Run Code Online (Sandbox Code Playgroud)

集群使用 SLURM 作为资源管理器,如果它失败,我想自动重新排队这项工作。

dam*_*ois 5

尝试|| scontrol requeue $SLURM_JOB_IDsrun命令末尾添加,以便如果失败并返回非零输出代码,作业将重新排队并重新安排。您可以使用$SLURM_RESTART_COUNT.