spi*_*tor 9 resources slurm server
我正在使用SLURM
工作负载管理器,我们有带有 4 个 GPU 的节点。
节点有几种可能的状态:
确定资源利用率的规范方法是sinfo
命令 - https://slurm.schedmd.com/sinfo.html。有几个标志和选项。然而,似乎他们都无法知道给定节点上当前分配了多少资源。
比如说,我想知道对于该mixed
州来说,是否有 1,2 个或 3 个 GPU 可用。或者这些信息是保密的并且由于某种原因用户无法获得?
dam*_*ois 12
如果你跑
scontrol show nodes
Run Code Online (Sandbox Code Playgroud)
作为普通用户,您会看到很多有关节点的信息,其中如下所示的行
AllocTRES=cpu=8,mem=48G,gres/gpu=2
Run Code Online (Sandbox Code Playgroud)
告诉您分配了多少个 GPU:gres/gpu=2
。另一条线
CfgTRES=cpu=64,mem=257707M,billing=64,gres/gpu=2
Run Code Online (Sandbox Code Playgroud)
告诉我们配置了多少个 GPU:gres/gpu=2
. 通过这两行,您可以推断节点上仍然可用的 GPU 数量。
归档时间: |
|
查看次数: |
7892 次 |
最近记录: |