SLURM:查看每个节点有多少个核心,以及每个作业的核心数

par*_*par 10 slurm

我搜索过谷歌并阅读文档.

我的本地群集正在使用SLURM.我想检查以下内容:每个节点有多少个核心?保留队列中的每个作业有多少个核心?

任何建议将不胜感激!

jim*_*imh 25

以@damienfrancois 的答案为基础:

我发现这sinfo是最有用的,但命令参数应该不同。如果您只想了解每个节点的核心数、每个节点的内存数、可用性以及每个节点的可用量,只需执行以下操作即可。

对于快速节点状态: sinfo -o "%n %e %m %a %c %C"

输出看起来像:

HOSTNAMES FREE_MEM MEMORY AVAIL CPUS CPUS(A/I/O/T)
m-4-06 301585 950000 up 96 88/8/0/96
m-4-07 654944 950000 up 72 71/1/0/72
m-4-09 628696 950000 up 72 49/23/0/72
c-0-02 36741 115000 up 24 24/0/0/24
c-0-03 47512 115000 up 24 24/0/0/24
m-2-01 699025 950000 up 72 72/0/0/72
Run Code Online (Sandbox Code Playgroud)

HOSTNAMES告诉您集群的节点,如果您想提交到您可以说要使用的特定节点。

FREE_MEM告诉您该节点有多少可用内存(以 MB 为单位)。

MEMORY告诉您该节点在未使用时默认有多少内存(以 MB 为单位)。

AVAIL告诉您该节点是否已启动(如果您遇到问题)。

CPUS告诉您该节点上的 cpu 总数(假设该节点未使用)。

CPUS(A/I/O/T)告诉您已分配/空闲/其他/总 cpu 的数量。分配的 cpu 是不可用且当前正在作业中使用的核心。空闲 cpu 可以立即使用,其他意味着它们可能已关闭或处于某种不同的中期运行状态,而总计只是重申 cpu 总数。

有关此命令的输出以及如何格式化它的更多详细信息可以在此处找到。

  • @phdstudent,您需要使用基本的 shell 管道和命令: `sinfo -o "%n %e %m %a %c %C" | 排序-k5,5nr` (2认同)

Bub*_*nja 16

为了查看您可以使用的所有节点的详细信息:

scontrol show node
Run Code Online (Sandbox Code Playgroud)

对于特定节点:

scontrol show node "nodename"
Run Code Online (Sandbox Code Playgroud)

对于作业核心,您可以使用格式标记%C,例如:

squeue -o"%.7i %.9P %.8j %.8u %.2t %.10M %.6D %C"
Run Code Online (Sandbox Code Playgroud)

有关格式的更多信息.


dam*_*ois 5

您可以使用以下sinfo命令获取有关集群中节点的大多数信息,例如:

sinfo --Node --long
Run Code Online (Sandbox Code Playgroud)

您将获得有关以下信息的简明信息:分区,节点状态,套接字数量,内核,线程,内存,磁盘和功能。它比的输出更容易阅读scontrol show nodes

至于每个作业的CPU数量,请参阅@Sergio Iserte的答案。

请参阅此处的联机帮助页。

  • @damienfrancois至少在2018年,它不是“ --node”,而是“ --Node” (4认同)
  • 我没有看到 @Sergio Iserte 的答案。 (2认同)