免责声明:这篇文章很长,因为我试图提供所有相关的配置信息。
我管理一个 gpu 集群,我想使用 slurm 进行作业管理。不幸的是,我无法使用 slurm 的相应通用资源插件来请求 GPU。
注意:test.sh 是一个打印环境变量 CUDA_VISIBLE_DEVICES 的小脚本。
--gres=gpu:1未完成运行srun -n1 --gres=gpu:1 test.sh结果如下错误:
srun: error: Unable to allocate resources: Requested node configuration is not available
Run Code Online (Sandbox Code Playgroud)
日志:
gres: gpu state for job 83
gres_cnt:4 node_cnt:0 type:(null)
_pick_best_nodes: job 83 never runnable
_slurm_rpc_allocate_resources: Requested node configuration is not available
Run Code Online (Sandbox Code Playgroud)
--gres=gram:500确实完成srun -n1 --gres=gram:500 test.sh但是,如果我打电话,作业会运行并打印
CUDA_VISIBLE_DEVICES=NoDevFiles
Run Code Online (Sandbox Code Playgroud)
日志:
sched: _slurm_rpc_allocate_resources JobId=76 NodeList=smurf01 usec=193
debug: Configuration for job 76 complete
debug: laying …Run Code Online (Sandbox Code Playgroud)