如何在排水状态下"消除"slurm节点

elm*_*elm 24 slurm

使用sinfo它显示3个节点处于drain状态,

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
all*         up   infinite      3  drain node[10,11,12]
Run Code Online (Sandbox Code Playgroud)

用于消除此类节点的命令行?

elm*_*elm 26

找到一种方法,输入scontrol解释器(在命令行类型中scontrol)然后

scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME
Run Code Online (Sandbox Code Playgroud)

然后

scontrol: show node node10
Run Code Online (Sandbox Code Playgroud)

显示其他信息

State=IDLE
Run Code Online (Sandbox Code Playgroud)

更新:其中一些节点恢复了DRAIN状态; 注意到他们的根分区已经填满,例如show node a10显示Reason=SlurmdSpoolDir is full,因此在Ubuntu sudo apt-get clean中删除/var/cache/apt内容并且还压缩了一些/var/log文件.

  • 你不需要经历DOWN状态,你可以直接发出``update ... state = resume``命令 (5认同)

小智 12

如果将其设置为关闭,则所有作业都将被终止.

将节点设置为RESUME.


irr*_*rom 12

如果节点上当前没有作业在运行:

scontrol update nodename=node10 state=idle
Run Code Online (Sandbox Code Playgroud)

如果作业正在节点上运行:

scontrol update nodename=node10 state=resume
Run Code Online (Sandbox Code Playgroud)