我遇到有趣而奇怪的问题。
当我使用 GPU 启动 docker 容器时,它工作正常,并且我看到 docker 中的所有 GPU。然而,几个小时或几天后,我无法在docker中使用GPU。
当我nvidia-smi
在 docker 机器上做的时候。我看到这条消息
“无法初始化 NVML:未知错误”
但是,在主机中,我看到所有 GPU 都带有 nvidia-smi。另外,当我重新启动 docker 机器时。它完全工作正常并显示所有 GPU。
我的推理 Docker 机器应该一直打开,并根据服务器请求进行推理。有人有同样的问题或该问题的解决方案吗?