Slurm:如何找出给定节点未分配多少内存

Pla*_*Tag 4 job-scheduler

我是 SLURM 的新手。我正在寻找一种舒适的方法,以查看节点/节点列表中有多少内存可用于我的 srun 分配。

我已经使用了 sinfo、scontrol 和 sstat,但它们都没有在一个舒适的概述中给我我需要的信息。

我有写一个shell脚本的想法,以便从scontrol中获取所有作业的所有字段并总结它们。但必须有更简单的方法。如果有人有提示或想法,那就太好了!

小智 6

输出的第 7 列sinfo -N -l将告诉您每个计算节点中安装了多少内存。

$sinfo -N -l
Wed Nov  6 16:31:45 2013
NODELIST                NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON              
node001                    1      Def*        idle    8    2:4:1  24150   920644    100 Xeon,X55 none  
Run Code Online (Sandbox Code Playgroud)

该命令scontrol -o show nodes将告诉您每个节点上已经使用了多少内存。寻找AllocMem入口。(需要 Slurm 2.6.0 或更新版本)

$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0
Run Code Online (Sandbox Code Playgroud)