小编Elo*_*zos的帖子

“docker:19.03-dind”无法选择具有以下功能的设备驱动程序“nvidia”:[[gpu]]

我遇到了 K8S+DinD 问题:

  • 启动 Kubernetes 集群
  • 在该集群内启动一个主 docker 镜像和一个 DinD 镜像
  • 运行请求 GPU 的作业时出现错误could not select device driver "nvidia" with capabilities: [[gpu]]

完全错误

http://localhost:2375/v1.40/containers/long-hash-string/start: Internal Server Error ("could not select device driver "nvidia" with capabilities: [[gpu]]")
Run Code Online (Sandbox Code Playgroud)

execK8S pod 内的 DinD 映像nvidia-smi不可用。

一些调试,似乎是由于 DinD 缺少 Nvidia-docker-toolkit,当我直接在本地笔记本电脑 docker 上运行相同的作业时,我遇到了相同的错误,我通过安装nvidia-docker2 sudo apt-get install -y nvidia-docker2修复了相同的错误。

我想也许我可以尝试将 nvidia-docker2 安装到 DinD 19.03 (docker:19.03-dind),但不知道该怎么做?通过多阶段 docker 构建?

非常感谢!


更新:

吊舱规格:

spec:
    containers:
      - name: dind-daemon
        image: docker:19.03-dind
Run Code Online (Sandbox Code Playgroud)

gpu docker kubernetes nvidia-docker docker-in-docker

2
推荐指数
1
解决办法
1242
查看次数