解决SLURM“sbatch:错误:批量作业提交失败:请求的节点配置不可用”错误

Acc*_*ity 3 cluster-computing batch-processing slurm

我们的本地集群有 4 个 GPU 节点,其中包含 2 个 36 核 CPU 和 200 GB 的 RAM。当我尝试使用以下配置提交作业时:

#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

sbatch:错误:批处理作业提交失败:请求的节点配置不可用

此错误的原因可能是什么?节点具有我需要的那种硬件......

dam*_*ois 5

CPU 很可能是 36 线程而不是 36 核,并且 Slurm 可能配置为分配内核而不是线程。

检查输出scontrol show nodes以查看节点真正提供的内容。