小编Pix*_*hem的帖子

为什么在运行带有内置插件的 SLURM 的集群上请求 GPU 作为通用资源会失败?

免责声明:这篇文章很长,因为我试图提供所有相关的配置信息。

状态和问题:

我管理一个 gpu 集群,我想使用 slurm 进行作业管理。不幸的是,我无法使用 slurm 的相应通用资源插件来请求 GPU。

注意:test.sh 是一个打印环境变量 CUDA_VISIBLE_DEVICES 的小脚本。

正在运行的作业--gres=gpu:1未完成

运行srun -n1 --gres=gpu:1 test.sh结果如下错误:

srun: error: Unable to allocate resources: Requested node configuration is not available
Run Code Online (Sandbox Code Playgroud)

日志:

gres: gpu state for job 83
    gres_cnt:4 node_cnt:0 type:(null)
    _pick_best_nodes: job 83 never runnable
    _slurm_rpc_allocate_resources: Requested node configuration is not available
Run Code Online (Sandbox Code Playgroud)

运行作业--gres=gram:500确实完成

srun -n1 --gres=gram:500 test.sh但是,如果我打电话,作业会运行并打印

CUDA_VISIBLE_DEVICES=NoDevFiles
Run Code Online (Sandbox Code Playgroud)

日志:

sched: _slurm_rpc_allocate_resources JobId=76 NodeList=smurf01 usec=193
debug:  Configuration for job 76 complete
debug:  laying …
Run Code Online (Sandbox Code Playgroud)

cluster job-scheduler hpc

10
推荐指数
1
解决办法
5407
查看次数

标签 统计

cluster ×1

hpc ×1

job-scheduler ×1