状态和问题：

我管理一个 gpu 集群，我想使用 slurm 进行作业管理。不幸的是，我无法使用 slurm 的相应通用资源插件来请求 GPU。

注意：test.sh 是一个打印环境变量 CUDA_VISIBLE_DEVICES 的小脚本。

正在运行的作业`--gres=gpu:1`未完成

运行srun -n1 --gres=gpu:1 test.sh结果如下错误：

srun: error: Unable to allocate resources: Requested node configuration is not available

Run Code Online (Sandbox Code Playgroud)

日志：

gres: gpu state for job 83
    gres_cnt:4 node_cnt:0 type:(null)
    _pick_best_nodes: job 83 never runnable
    _slurm_rpc_allocate_resources: Requested node configuration is not available

Run Code Online (Sandbox Code Playgroud)

运行作业`--gres=gram:500`确实完成

srun -n1 --gres=gram:500 test.sh但是，如果我打电话，作业会运行并打印

CUDA_VISIBLE_DEVICES=NoDevFiles

Run Code Online (Sandbox Code Playgroud)

日志：

sched: _slurm_rpc_allocate_resources JobId=76 NodeList=smurf01 usec=193
debug:  Configuration for job 76 complete
debug:  laying …

Run Code Online (Sandbox Code Playgroud)

cluster job-scheduler hpc

Pix*_*hem

2015 04-27

10
推荐指数

1
解决办法

5407
查看次数

标签统计

cluster ×1

hpc ×1

job-scheduler ×1

小编Pix*_*hem的帖子

为什么在运行带有内置插件的 SLURM 的集群上请求 GPU 作为通用资源会失败？

状态和问题：

正在运行的作业--gres=gpu:1未完成

运行作业--gres=gram:500确实完成

标签 统计

小编Pix_hem的帖子

正在运行的作业`--gres=gpu:1`未完成

运行作业`--gres=gram:500`确实完成

标签统计