我是 SLURM 的新手。我正在寻找一种舒适的方法,以查看节点/节点列表中有多少内存可用于我的 srun 分配。
我已经使用了 sinfo、scontrol 和 sstat,但它们都没有在一个舒适的概述中给我我需要的信息。
我有写一个shell脚本的想法,以便从scontrol中获取所有作业的所有字段并总结它们。但必须有更简单的方法。如果有人有提示或想法,那就太好了!
小智 6
输出的第 7 列sinfo -N -l将告诉您每个计算节点中安装了多少内存。
$sinfo -N -l
Wed Nov 6 16:31:45 2013
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON
node001 1 Def* idle 8 2:4:1 24150 920644 100 Xeon,X55 none
Run Code Online (Sandbox Code Playgroud)
该命令scontrol -o show nodes将告诉您每个节点上已经使用了多少内存。寻找AllocMem入口。(需要 Slurm 2.6.0 或更新版本)
$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0
Run Code Online (Sandbox Code Playgroud)