我可以通过以下命令从命令行运行一个具有访问GPU的tensorflow容器
$ sudo docker run --runtime=nvidia --rm gcr.io/tensorflow/tensorflow:latest-gpu
我希望能够从docker-compose运行这个容器.可以从中指定--runtime标志docker-compose.yml吗?
docker docker-compose tensorflow nvidia-docker tensorflow-gpu
我使用的是运行 macOS Monterey 版本 12.0.1 的硅芯片 Macbook Pro,在尝试使用 .net 连接到 NGC 服务时出现以下错误sudo docker login ncvr.io。
Error saving credentials: error storing credentials - err: exit status 1, out: `Post "http://ipc/registry/credstore-updated": dial unix /var/root/Library/Containers/com.docker.docker/Data/backend.sock: connect: no such file or directory`
Run Code Online (Sandbox Code Playgroud) 使用 NVIDIA 容器构建容器(通过 docker build、docker run 或 docker-compose)时,我收到以下错误,有些随机。当我通常开始构建容器时,它第一次就可以工作。但接下来的几次通常都不起作用。
\n------\n > [internal] load metadata for nvcr.io/nvidia/l4t-base:r32.5.0:\n------\nfailed to solve: rpc error: code = Unknown desc = failed to solve with frontend dockerfile.v0: \n failed to create LLB definition: failed to authorize: \n rpc error: code = Unknown desc = failed to fetch anonymous token: unexpected status: 401 Unauthorized\nRun Code Online (Sandbox Code Playgroud)\n我当前的解决方法是暂时使用稍微不同的图像,同时 I\xe2\x80\x99m 调整 Dockerfile 的其他部分。
\n昨晚我在我的 Ubuntu 工作站上训练模型,然后今天早上醒来看到了这条消息:
Failed to initialize NVML: Driver/library version mismatch
Run Code Online (Sandbox Code Playgroud)
显然 NVIDIA 系统驱动程序会自动更新,现在我需要重新启动机器才能使用我的 GPU...如何阻止 NVIDIA 自动更新?
安装 docker-ce 后,我尝试安装 nvidia-docker。我按照这个:https : //github.com/NVIDIA/nvidia-docker安装 nvidia-docker。它似乎已正确安装。
我试着跑:
$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
docker: Error response from daemon: Unknown runtime specified nvidia.
See 'docker run --help'.
Run Code Online (Sandbox Code Playgroud)
虽然,这有效(没有 --runtime=nvidia):
$ docker container run -ti ubuntu bash
Run Code Online (Sandbox Code Playgroud)
我的系统上的一些附加信息:它是一个带有 8 个 GPU(Titan Xp)和 nvidia 驱动程序版本 387.26 的 ubuntu 服务器 16.04。我可以在主机系统上运行 nvidia-smi -l 1 并且它按预期工作。
$ dpkg -l | grep -E '(nvidia|docker)'
ii docker-ce 18.06.1~ce~3-0~ubuntu amd64 Docker: the open-source application container engine
ii libnvidia-container-tools 1.0.0-1 amd64 NVIDIA container runtime …Run Code Online (Sandbox Code Playgroud) 我有一个 GPU 应用程序,可以在图像构建阶段进行单元测试。使用 Docker 19.03,可以指定 nvidia 运行时,docker run --gpus all但我还需要访问 GPU,docker build因为我进行单元测试。我怎样才能实现这个目标?
对于使用 nvidia-docker2 的旧版本 docker,无法在构建阶段指定运行时,但您可以将默认运行时设置为 nvidia,并且 docker 构建可以正常工作。我可以在不再需要 nvidia-docker 的 Docker 19.03 中执行此操作吗?如果是这样,怎么办?
我遇到有趣而奇怪的问题。
当我使用 GPU 启动 docker 容器时,它工作正常,并且我看到 docker 中的所有 GPU。然而,几个小时或几天后,我无法在docker中使用GPU。
当我nvidia-smi在 docker 机器上做的时候。我看到这条消息
“无法初始化 NVML:未知错误”
但是,在主机中,我看到所有 GPU 都带有 nvidia-smi。另外,当我重新启动 docker 机器时。它完全工作正常并显示所有 GPU。
我的推理 Docker 机器应该一直打开,并根据服务器请求进行推理。有人有同样的问题或该问题的解决方案吗?
我正在GCP使用特斯拉 GPU运行虚拟机。并尝试部署PyTorch基于 的应用程序以使用 GPU 对其进行加速。
我想让 docker 使用这个 GPU,可以从容器访问它。
我设法在主机上安装了所有驱动程序,并且该应用程序在那里运行良好,但是当我尝试在 docker(基于 nvidia/cuda 容器)中运行它时,pytorch 失败了:
File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 82,
in _check_driver http://www.nvidia.com/Download/index.aspx""")
AssertionError:
Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from
Run Code Online (Sandbox Code Playgroud)
要获取有关容器可见的 nvidia 驱动程序的一些信息,我运行以下命令:
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
但它抱怨: docker: Error response from daemon: Unknown runtime specified nvidia.
在主机上nvidia-smi输出如下所示:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01 Driver Version: 440.33.01 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+ …Run Code Online (Sandbox Code Playgroud) 我的电脑上安装了 cuda-10.1。目前cuda的最新版本是cuda11.0。我正在考虑使用 docker cuda 版本 11.0,而不更改我的 PC 上的 cuda 版本。那么这样的话容器中使用的cuda会是11.0吗?
我曾经使用带有 wsl2 集成的 docker 桌面,并且在 GPU 支持下运行容器没有问题。
但是,在最近更新 docker Desktop v4.17.1(2023 年 3 月)后,我专门使用 wsl 上的 --gpus all 标记运行的任何容器都会永远挂起,没有任何响应。除非使用 --gpus 标签指定,否则相同的容器运行不会出现任何问题。
在 wsl 上使用 nvidia-smi 运行 cuda 容器挂起,没有任何响应
注意:nvidia-smi 在 wsl 中工作正常。系统:Windows 11。
nvidia-docker ×10
docker ×9
cuda ×2
nvidia ×2
tensorflow ×2
apple-m1 ×1
containers ×1
gpu ×1
nvidia-smi ×1
pytorch ×1
ubuntu ×1
wsl-2 ×1