有没有办法通过 slurm 找出节点上有多少个 GPU?

spi*_*tor 9 resources slurm server

我正在使用SLURM工作负载管理器,我们有带有 4 个 GPU 的节点。

节点有几种可能的状态:

  • 已分配(所有计算资源均已分配)
  • 混合(分配部分资源)
  • 空闲(没有分配任何计算资源)

确定资源利用率的规范方法是sinfo命令 - https://slurm.schedmd.com/sinfo.html。有几个标志和选项。然而,似乎他们都无法知道给定节点上当前分配了多少资源。

比如说,我想知道对于该mixed州来说,是否有 1,2 个或 3 个 GPU 可用。或者这些信息是保密的并且由于某种原因用户无法获得?

dam*_*ois 12

如果你跑

scontrol show nodes 
Run Code Online (Sandbox Code Playgroud)

作为普通用户,您会看到很多有关节点的信息,其中如下所示的行

 AllocTRES=cpu=8,mem=48G,gres/gpu=2
Run Code Online (Sandbox Code Playgroud)

告诉您分配了多少个 GPU:gres/gpu=2。另一条线

 CfgTRES=cpu=64,mem=257707M,billing=64,gres/gpu=2 
Run Code Online (Sandbox Code Playgroud)

告诉我们配置了多少个 GPU:gres/gpu=2. 通过这两行,您可以推断节点上仍然可用的 GPU 数量。