我必须运行 300 个相同模型的作业(黑匣子)。然而,有时模型内部会出现分段错误并显示以下错误消息:
srun: error: nodexyz: task 0: Segmentation fault
Run Code Online (Sandbox Code Playgroud)
集群使用 SLURM 作为资源管理器,如果它失败,我想自动重新排队这项工作。
尝试|| scontrol requeue $SLURM_JOB_ID在srun命令末尾添加,以便如果失败并返回非零输出代码,作业将重新排队并重新安排。您可以使用$SLURM_RESTART_COUNT.
| 归档时间: |
|
| 查看次数: |
2470 次 |
| 最近记录: |