使用sinfo它显示3个节点处于drain状态,
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
all* up infinite 3 drain node[10,11,12]
Run Code Online (Sandbox Code Playgroud)
用于消除此类节点的命令行?
elm*_*elm 26
找到一种方法,输入scontrol解释器(在命令行类型中scontrol)然后
scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME
Run Code Online (Sandbox Code Playgroud)
然后
scontrol: show node node10
Run Code Online (Sandbox Code Playgroud)
显示其他信息
State=IDLE
Run Code Online (Sandbox Code Playgroud)
更新:其中一些节点恢复了DRAIN状态; 注意到他们的根分区已经填满,例如show node a10显示Reason=SlurmdSpoolDir is full,因此在Ubuntu sudo apt-get clean中删除/var/cache/apt内容并且还压缩了一些/var/log文件.
irr*_*rom 12
如果节点上当前没有作业在运行:
scontrol update nodename=node10 state=idle
Run Code Online (Sandbox Code Playgroud)
如果作业正在节点上运行:
scontrol update nodename=node10 state=resume
Run Code Online (Sandbox Code Playgroud)