标签: nvidia-docker

如何从docker-compose.yml指定nvidia运行时?

我可以通过以下命令从命令行运行一个具有访问GPU的tensorflow容器

$ sudo docker run --runtime=nvidia --rm gcr.io/tensorflow/tensorflow:latest-gpu

我希望能够从docker-compose运行这个容器.可以从中指定--runtime标志docker-compose.yml吗?

docker docker-compose tensorflow nvidia-docker tensorflow-gpu

26
推荐指数
3
解决办法
1万
查看次数

连接到 docker 上的服务时出现凭据保存错误

我使用的是运行 macOS Monterey 版本 12.0.1 的硅芯片 Macbook Pro,在尝试使用 .net 连接到 NGC 服务时出现以下错误sudo docker login ncvr.io

Error saving credentials: error storing credentials - err: exit status 1, out: `Post "http://ipc/registry/credstore-updated": dial unix /var/root/Library/Containers/com.docker.docker/Data/backend.sock: connect: no such file or directory`
Run Code Online (Sandbox Code Playgroud)

docker nvidia-docker apple-m1

25
推荐指数
2
解决办法
2万
查看次数

Docker build / docker compose up 错误:未知 desc = 无法获取匿名令牌:意外状态:401 未经授权

使用 NVIDIA 容器构建容器(通过 docker build、docker run 或 docker-compose)时,我收到以下错误,有些随机。当我通常开始构建容器时,它第一次就可以工作。但接下来的几次通常都不起作用。

\n
------\n > [internal] load metadata for nvcr.io/nvidia/l4t-base:r32.5.0:\n------\nfailed to solve: rpc error: code = Unknown desc = failed to solve with frontend dockerfile.v0: \n  failed to create LLB definition: failed to authorize: \n  rpc error: code = Unknown desc = failed to fetch anonymous token: unexpected status: 401 Unauthorized\n
Run Code Online (Sandbox Code Playgroud)\n

我当前的解决方法是暂时使用稍微不同的图像,同时 I\xe2\x80\x99m 调整 Dockerfile 的其他部分。

\n

docker nvidia-docker

18
推荐指数
2
解决办法
4万
查看次数

如何防止Ubuntu上的NVIDIA驱动自动升级?

昨晚我在我的 Ubuntu 工作站上训练模型,然后今天早上醒来看到了这条消息:

Failed to initialize NVML: Driver/library version mismatch
Run Code Online (Sandbox Code Playgroud)

显然 NVIDIA 系统驱动程序会自动更新,现在我需要重新启动机器才能使用我的 GPU...如何阻止 NVIDIA 自动更新?

ubuntu nvidia tensorflow pytorch nvidia-docker

18
推荐指数
1
解决办法
6905
查看次数

nvidia-docker :未知的运行时指定 nvidia

安装 docker-ce 后,我尝试安装 nvidia-docker。我按照这个:https : //github.com/NVIDIA/nvidia-docker安装 nvidia-docker。它似乎已正确安装。

我试着跑:

$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
docker: Error response from daemon: Unknown runtime specified nvidia.
See 'docker run --help'.
Run Code Online (Sandbox Code Playgroud)

虽然,这有效(没有 --runtime=nvidia):

$ docker container run -ti ubuntu bash
Run Code Online (Sandbox Code Playgroud)

我的系统上的一些附加信息:它是一个带有 8 个 GPU(Titan Xp)和 nvidia 驱动程序版本 387.26 的 ubuntu 服务器 16.04。我可以在主机系统上运行 nvidia-smi -l 1 并且它按预期工作。

$ dpkg -l | grep -E '(nvidia|docker)'
ii  docker-ce                              18.06.1~ce~3-0~ubuntu                        amd64        Docker: the open-source application container engine
ii  libnvidia-container-tools              1.0.0-1                                      amd64        NVIDIA container runtime …
Run Code Online (Sandbox Code Playgroud)

docker nvidia-docker

15
推荐指数
3
解决办法
2万
查看次数

使用 nvidia 运行时构建 docker

我有一个 GPU 应用程序,可以在图像构建阶段进行单元测试。使用 Docker 19.03,可以指定 nvidia 运行时,docker run --gpus all但我还需要访问 GPU,docker build因为我进行单元测试。我怎样才能实现这个目标?

对于使用 nvidia-docker2 的旧版本 docker,无法在构建阶段指定运行时,但您可以将默认运行时设置为 nvidia,并且 docker 构建可以正常工作。我可以在不再需要 nvidia-docker 的 Docker 19.03 中执行此操作吗?如果是这样,怎么办?

docker nvidia-docker

15
推荐指数
3
解决办法
7447
查看次数

无法初始化 NVML:几个小时后 Docker 中出现未知错误

我遇到有趣而奇怪的问题。

当我使用 GPU 启动 docker 容器时,它工作正常,并且我看到 docker 中的所有 GPU。然而,几个小时或几天后,我无法在docker中使用GPU。

当我nvidia-smi在 docker 机器上做的时候。我看到这条消息

“无法初始化 NVML:未知错误”

但是,在主机中,我看到所有 GPU 都带有 nvidia-smi。另外,当我重新启动 docker 机器时。它完全工作正常并显示所有 GPU。

我的推理 Docker 机器应该一直打开,并根据服务器请求进行推理。有人有同样的问题或该问题的解决方案吗?

nvidia docker nvidia-docker nvidia-smi

14
推荐指数
2
解决办法
1万
查看次数

将 nvidia 运行时添加到 docker 运行时

我正在GCP使用特斯拉 GPU运行虚拟机。并尝试部署PyTorch基于 的应用程序以使用 GPU 对其进行加速。

我想让 docker 使用这个 GPU,可以从容器访问它。

我设法在主机上安装了所有驱动程序,并且该应用程序在那里运行良好,但是当我尝试在 docker(基于 nvidia/cuda 容器)中运行它时,pytorch 失败了:

File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 82, 
in _check_driver http://www.nvidia.com/Download/index.aspx""")
AssertionError: 
Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from
Run Code Online (Sandbox Code Playgroud)

要获取有关容器可见的 nvidia 驱动程序的一些信息,我运行以下命令:

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
但它抱怨: docker: Error response from daemon: Unknown runtime specified nvidia.

在主机上nvidia-smi输出如下所示:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+ …
Run Code Online (Sandbox Code Playgroud)

cuda gpu docker nvidia-docker

12
推荐指数
1
解决办法
1万
查看次数

docker上的cuda版本和PC上的cuda版本不同有关系吗?

我的电脑上安装了 cuda-10.1。目前cuda的最新版本是cuda11.0。我正在考虑使用 docker cuda 版本 11.0,而不更改我的 PC 上的 cuda 版本。那么这样的话容器中使用的cuda会是11.0吗?

cuda docker nvidia-docker

11
推荐指数
1
解决办法
8187
查看次数

使用 --gpus 标签运行 docker 桌面容器挂起,在 wsl 中没有任何响应

我曾经使用带有 wsl2 集成的 docker 桌面,并且在 GPU 支持下运行容器没有问题。

但是,在最近更新 docker Desktop v4.17.1(2023 年 3 月)后,我专门使用 wsl 上的 --gpus all 标记运行的任何容器都会永远挂起,没有任何响应。除非使用 --gpus 标签指定,否则相同的容器运行不会出现任何问题。

在 wsl 上使用 nvidia-smi 运行 cuda 容器挂起,没有任何响应

注意:nvidia-smi 在 wsl 中工作正常。系统:Windows 11。

  1. 尝试全新安装 docker 桌面。
  2. 尝试了所有 wsl 发行版的全新安装。
  3. WSL 发行版可以访问 GPU 和 nvidia cuda 驱动程序。
  4. 能够在 wsl 中使用 docker 桌面,没有任何问题,除非使用 --gpus 标签运行任何容器挂起,没有任何错误或响应。

containers docker nvidia-docker wsl-2

11
推荐指数
1
解决办法
2557
查看次数