Soc*_*tum 5 gpu nvidia gpu-programming multi-gpu docker
我有一台具有4个GPU的服务器(Ubuntu 16.04)。我的团队对此表示赞同,并且我们当前的方法是使用Docker容器化我们所有的工作,并使用来将容器限制为GPU $ NV_GPU=0 nvidia-docker run -ti nvidia/cuda nvidia-smi。当我们都非常清楚谁在使用哪个GPU时,这种方法很好用,但是我们的团队已经壮大,我希望有一种更强大的方法来监视GPU的使用,并禁止在使用GPU时对其进行访问。nvidia-smi是“ GPU-Util”的一个信息通道,但有时当容器中的某人当前将其保留时,GPU可能在某一时刻具有0%的GPU-Util。
您对以下方面有什么建议吗?
$ NV_GPU='gpu_id' nvidia-docker run$ NV_GPU='same_gpu_id' nvidia-docker run我可能也在想这错误的方式,因此欢迎其他想法。谢谢!
小智 0
听起来是应用 CI/CD 实践的好地方。您需要的是一个作业队列。每个用户可以通过以某种方式触发管道来请求使用资源(=GPU),例如在特定分支上推送提交。然后,自动系统将有序地分配共享资源,最终每个人都可以完成他们的实验。
这可能是最可扩展的方法。不仅仅是预订日历或临时使用。更具可扩展性的唯一方法是从云购买计算,但这不在 OP 问题的范围内。
| 归档时间: |
|
| 查看次数: |
706 次 |
| 最近记录: |