标签: nvidia-docker

如何从docker-compose.yml指定nvidia运行时？

我可以通过以下命令从命令行运行一个具有访问GPU的tensorflow容器

$ sudo docker run --runtime=nvidia --rm gcr.io/tensorflow/tensorflow:latest-gpu

我希望能够从docker-compose运行这个容器.可以从中指定--runtime标志docker-compose.yml吗？

docker docker-compose tensorflow nvidia-docker tensorflow-gpu

ris*_*sem

lucky-day

26
推荐指数

3
解决办法

1万
查看次数

连接到 docker 上的服务时出现凭据保存错误

我使用的是运行 macOS Monterey 版本 12.0.1 的硅芯片 Macbook Pro，在尝试使用 .net 连接到 NGC 服务时出现以下错误sudo docker login ncvr.io。

Error saving credentials: error storing credentials - err: exit status 1, out: `Post "http://ipc/registry/credstore-updated": dial unix /var/root/Library/Containers/com.docker.docker/Data/backend.sock: connect: no such file or directory`

Run Code Online (Sandbox Code Playgroud)

docker nvidia-docker apple-m1

Dae*_*que

lucky-day

25
推荐指数

2
解决办法

2万
查看次数

Docker build / docker compose up 错误：未知 desc = 无法获取匿名令牌：意外状态：401 未经授权

使用 NVIDIA 容器构建容器（通过 docker build、docker run 或 docker-compose）时，我收到以下错误，有些随机。当我通常开始构建容器时，它第一次就可以工作。但接下来的几次通常都不起作用。

------\n > [internal] load metadata for nvcr.io/nvidia/l4t-base:r32.5.0:\n------\nfailed to solve: rpc error: code = Unknown desc = failed to solve with frontend dockerfile.v0: \n  failed to create LLB definition: failed to authorize: \n  rpc error: code = Unknown desc = failed to fetch anonymous token: unexpected status: 401 Unauthorized\n

Run Code Online (Sandbox Code Playgroud)\n

我当前的解决方法是暂时使用稍微不同的图像，同时 I\xe2\x80\x99m 调整 Dockerfile 的其他部分。

docker nvidia-docker

Ben*_*rth

lucky-day

18
推荐指数

2
解决办法

4万
查看次数

如何防止Ubuntu上的NVIDIA驱动自动升级？

昨晚我在我的 Ubuntu 工作站上训练模型，然后今天早上醒来看到了这条消息：

Failed to initialize NVML: Driver/library version mismatch

Run Code Online (Sandbox Code Playgroud)

显然 NVIDIA 系统驱动程序会自动更新，现在我需要重新启动机器才能使用我的 GPU...如何阻止 NVIDIA 自动更新？

ubuntu nvidia tensorflow pytorch nvidia-docker

vgo*_*ani

2023 04-22

18
推荐指数

1
解决办法

6905
查看次数

nvidia-docker ：未知的运行时指定 nvidia

安装 docker-ce 后，我尝试安装 nvidia-docker。我按照这个：https : //github.com/NVIDIA/nvidia-docker安装 nvidia-docker。它似乎已正确安装。

我试着跑：

$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
docker: Error response from daemon: Unknown runtime specified nvidia.
See 'docker run --help'.

Run Code Online (Sandbox Code Playgroud)

虽然，这有效（没有 --runtime=nvidia）：

$ docker container run -ti ubuntu bash

Run Code Online (Sandbox Code Playgroud)

我的系统上的一些附加信息：它是一个带有 8 个 GPU（Titan Xp）和 nvidia 驱动程序版本 387.26 的 ubuntu 服务器 16.04。我可以在主机系统上运行 nvidia-smi -l 1 并且它按预期工作。

$ dpkg -l | grep -E '(nvidia|docker)'
ii  docker-ce                              18.06.1~ce~3-0~ubuntu                        amd64        Docker: the open-source application container engine
ii  libnvidia-container-tools              1.0.0-1                                      amd64        NVIDIA container runtime …

Run Code Online (Sandbox Code Playgroud)

docker nvidia-docker

mku*_*use

lucky-day

15
推荐指数

3
解决办法

2万
查看次数

使用 nvidia 运行时构建 docker

我有一个 GPU 应用程序，可以在图像构建阶段进行单元测试。使用 Docker 19.03，可以指定 nvidia 运行时，docker run --gpus all但我还需要访问 GPU，docker build因为我进行单元测试。我怎样才能实现这个目标？

对于使用 nvidia-docker2 的旧版本 docker，无法在构建阶段指定运行时，但您可以将默认运行时设置为 nvidia，并且 docker 构建可以正常工作。我可以在不再需要 nvidia-docker 的 Docker 19.03 中执行此操作吗？如果是这样，怎么办？

docker nvidia-docker

use*_*302

lucky-day

15
推荐指数

3
解决办法

7447
查看次数

无法初始化 NVML：几个小时后 Docker 中出现未知错误

我遇到有趣而奇怪的问题。

当我使用 GPU 启动 docker 容器时，它工作正常，并且我看到 docker 中的所有 GPU。然而，几个小时或几天后，我无法在docker中使用GPU。

当我nvidia-smi在 docker 机器上做的时候。我看到这条消息

“无法初始化 NVML：未知错误”

但是，在主机中，我看到所有 GPU 都带有 nvidia-smi。另外，当我重新启动 docker 机器时。它完全工作正常并显示所有 GPU。

我的推理 Docker 机器应该一直打开，并根据服务器请求进行推理。有人有同样的问题或该问题的解决方案吗？

nvidia docker nvidia-docker nvidia-smi

Jus*_*ong

2022 07-11

14
推荐指数

2
解决办法

1万
查看次数

将 nvidia 运行时添加到 docker 运行时

我正在GCP使用特斯拉 GPU运行虚拟机。并尝试部署PyTorch基于的应用程序以使用 GPU 对其进行加速。

我想让 docker 使用这个 GPU，可以从容器访问它。

我设法在主机上安装了所有驱动程序，并且该应用程序在那里运行良好，但是当我尝试在 docker（基于 nvidia/cuda 容器）中运行它时，pytorch 失败了：

File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 82, 
in _check_driver http://www.nvidia.com/Download/index.aspx""")
AssertionError: 
Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from

Run Code Online (Sandbox Code Playgroud)

要获取有关容器可见的 nvidia 驱动程序的一些信息，我运行以下命令：

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
但它抱怨： docker: Error response from daemon: Unknown runtime specified nvidia.

在主机上nvidia-smi输出如下所示：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+ …

Run Code Online (Sandbox Code Playgroud)

cuda gpu docker nvidia-docker

eva*_*ria

2019 11-23

12
推荐指数

1
解决办法

1万
查看次数