国家"流失"是什么意思?

Mar*_*oma 32 slurm

当我使用时,sinfo我看到以下内容:

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
[...]
RG3          up 28-00:00:0      1  drain rg3hpc4
[...]
Run Code Online (Sandbox Code Playgroud)

国家"流失"是什么意思?

dam*_*ois 42

这意味着不会在该节点上安排进一步的作业,但当前正在运行的作业将继续运行(与设置down杀死节点上运行的所有作业的节点相反).

节点通常设置为该状态,以便在完成所有正在运行的作业后可以进行一些维护操作.

scontrol命令的联机帮助页:

如果要从服务中删除节点,通常需要将其状态设置为"DRAIN"

请注意,系统管理员很可能给出了节点耗尽的原因,您可以看到这个原因

sinfo -R
Run Code Online (Sandbox Code Playgroud)

  • 要恢复节点,这对我有用:`scontrol update nodename=YOURNODEHERE state=resume` (4认同)