duh*_*ime 4 hpc sungridengine slurm
如果在 slurm 集群上运行阵列作业,如何重新启动失败的工作作业?
在 Sun Grid Engine 队列中,可以#$ -r y向作业文件添加内容以指示作业失败后应重新启动 — Slurm 中与此标志等效的是什么?
您可以使用--requeue
#SBATCH --requeue ### On failure, requeue for another try
Run Code Online (Sandbox Code Playgroud)
--重新排队
指定批处理作业应符合重新排队的条件。在节点发生故障之后,或者在被更高优先级的作业抢占时,系统管理员可以显式地对作业重新排队。当作业重新排队时,批处理脚本将从头开始启动。另请参阅 --no-requeue 选项。JobRequeue 配置参数控制集群上的默认行为。
在此处查看更多信息: https: //slurm.schedmd.com/sbatch.html#lbAE
| 归档时间: |
|
| 查看次数: |
7895 次 |
| 最近记录: |