我正在寻找可以帮助我创建用于训练和评估 CNN 模型的数据流时间表的工具。
我想知道每个硬件组件需要多长时间才能完成其工作,并希望找到瓶颈。例如,需要多长时间:
我正在Tensorflow 教程中对CIFAR10 CNN进行这项研究,目的是将研究结果移植到更复杂的 CNN。我正在与:
我使用 pip 安装了 dlib。我的显卡支持 CUDA,但是在运行 dlib 时,它没有使用 GPU。
我在 ubuntu 18.04 上工作
Python 3.6.5 (default, Apr 1 2018, 05:46:30)
[GCC 7.3.0] on linux
>>> import dlib
>>> dlib.DLIB_USE_CUDA
False
Run Code Online (Sandbox Code Playgroud)
我还安装了 NVidia Cuda Compile 驱动程序,但仍然无法正常工作。
nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Nov__3_21:07:56_CDT_2017
Cuda compilation tools, release 9.1, V9.1.85
Run Code Online (Sandbox Code Playgroud)
任何人都可以帮助我如何让它工作。?
我正在尝试在 Ubuntu 16.04 容器中运行 OpenGL 应用程序 ( Gazebo ),并且我希望能够在可用时利用 nvidia 图形加速。我试图弄清楚推荐的、官方支持的(希望由 nvidia 支持)实现这一目标的方法是什么。
我的要求:
到目前为止我尝试过的:
FROM nvidia/opengl:1.0-glvnd-runtime-ubuntu16.04. 这很有效,但需要构建两个映像,这需要两倍的时间和两倍的磁盘空间。 打破要求 1。ubuntu:16.04,在那里完成所有耗时的工作,然后将其用作另一个映像的基础,其中从官方“运行文件”手动安装 NVIDIA 驱动程序。如果驱动程序与安装在主机上的驱动程序完全匹配,则此方法有效,但如果主机具有不同(例如较旧)版本,则无效。打破要求 2。--runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all -e NVIDIA_DRIVER_CAPABILITIES=all. 如果我这样做,会nvidia-smi看到卡,但 OpenGL(例如glxinfo)仍然尝试加载swrast驱动程序,这不起作用。我在野外看到的大多数示例都使用nvidia/opengl:1.0-glvnd-runtime-ubuntu16.04基础,并且在我的一生中,我找不到该图像中如何安装 nvidia 驱动程序(如果有的话)。我还在某处读到过,使用 nvidia 容器运行时(即nvidia-docker2我正在使用的),您不需要安装驱动程序,但情况似乎并非如此,至少对于 OpenGL 而言并非如此。
那么,有没有办法为 nvidia 和非 nvidia 创建满足我所有要求的容器映像,或者我只是想要太多?
我正在使用CUDF,它是 Nvidia 的Rapids ML 套件的一部分。
使用这个套件我将如何做点积?
df = cudf.DataFrame([('a', list(range(20))),
('b', list(reversed(range(20)))),
('c', list(range(20)))])
Run Code Online (Sandbox Code Playgroud)
例如,我将如何使用相同的 cudf 对象在上述 Dataframe 上执行点积?
我正在 Centos 7.6 64 位和 Nvidia 显卡上进行开发。我已经安装了 Nvidia 驱动程序和 cuda 驱动程序。
但是,当我运行“clinfo”时,它显示:
Number of platforms 0
Run Code Online (Sandbox Code Playgroud)
我应该检查什么以及如何解决?
我想使用多个 GPU 训练 keras 模型。我的理解是您目前无法使用 XLA 训练多个 GPU。问题是我不知道如何关闭 XLA。每个 GPU 都被列为 xla gpu。
作为参考,我在最新的 Ubuntu 桌面上使用了 3 个 RTX2070。nvidia-smi 确实显示了所有 3 个 gpu。
我试过卸载并重新安装tensorflow-gpu。那没有帮助。
从
keras.utils.training_utils import multi_gpu_model
model = multi_gpu_model(model,gpus=3)
Run Code Online (Sandbox Code Playgroud)
值错误:
To call `multi_gpu_model` with `gpus=3`, we expect the following devices to be available: ['/cpu:0', '/gpu:0', '/gpu:1', '/gpu:2']. However this machine only has: ['/cpu:0', '/xla_cpu:0', '/xla_gpu:0', '/xla_gpu:1', '/xla_gpu:2']. Try reducing `gpus`.
Run Code Online (Sandbox Code Playgroud)
编辑:我正在使用tensorflow-gpu,实际上我刚刚确认它甚至没有使用一个 gpu。我通过将批量大小提高到 10,000 来确认这一点,并且没有看到 nvidia-smi 的变化,但我确实通过 htop 看到了 CPU/内存使用的变化。
编辑2:
tf.test.gpu_device_name()
Run Code Online (Sandbox Code Playgroud)
只打印一个空字符串
然而
from …Run Code Online (Sandbox Code Playgroud) 根据 CUDA 工具包文档:
https://docs.nvidia.com/cuda/cuda-c-programming-guide/
设备内存可以分配为线性内存或 CUDA 数组。
这是否意味着 CUDA 数组不是线性存储在 GPU 内存中的?
在我的实验中,我成功地基于 cudamemcpy 函数从 GPU 内存中转储了我的数据。如果我的数据是由cudaMallocArray分配的,是不是意味着数据在GPU内存中不是物理线性的,需要通过其他API提取?
这是什么意思9.06 GiB reserved in total by PyTorch。
如果我7.80 GiB total capacity对同一个脚本使用较小尺寸的 GPU ,它6.20 GiB reserved in total by PyTorch
会显示 Pytorch 中的预留如何工作以及为什么预留内存会根据 GPU 尺寸而变化?
为了解决错误消息,RuntimeError: CUDA out of memory. Tried to allocate 2.86 GiB (GPU 0; 10.92 GiB total capacity; 9.02 GiB already allocated; 1.29 GiB free; 9.06 GiB reserved in total by PyTorch)我尝试将批量大小从 10 减少到 5 到 3。我尝试使用del x_train1. 我也试过使用torch.cuda.empty_cache(). with torch.no_grad()在应用预x_train1 = bert_model(train_indices)[2]训练模型以及训练和验证新模型时,我也使用过。但它们都不起作用。
这是跟踪: …
我计划在远程服务器上的 docker 中运行 ROS Rviz,期望 Rviz GUI 显示在我的本地计算机上。但我无法完成。任何帮助,将不胜感激。
我在远程服务器上的 ROS docker 镜像基于 ros-melodic-desktop-full 镜像(根据ROS Using Hardware Acceleration with Docker,ros-melodic-desktop-full 已经包含 nvidia-docker2)。下面列出的是我的 Dockerfile:
FROM osrf/ros:melodic-desktop-full
# strace, xterm, mesa-utils are all for debugging X display. Especially, mesa-utils has glxinfo and glxgear
RUN apt-get update && apt-get install -y xauth strace xterm mesa-utils
# nvidia-container-runtime
ENV NVIDIA_VISIBLE_DEVICES \
${NVIDIA_VISIBLE_DEVICES:-all}
ENV NVIDIA_DRIVER_CAPABILITIES \
${NVIDIA_DRIVER_CAPABILITIES:+$NVIDIA_DRIVER_CAPABILITIES,}graphics
# QT_X11_NO_MITSHM is for running X server and X client on different machines.
ENV QT_X11_NO_MITSHM 1
ENTRYPOINT …Run Code Online (Sandbox Code Playgroud) Steam 无法运行 =( 这是我尝试过的:
我使用 nvidia 驱动程序全新安装了 Ubuntu 20.04(通过 Ubuntu Server Live Installer + ubuntu-desktop 软件包):
$ nvidia-smi
Mon Jun 22 10:26:49 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.64 Driver Version: 440.64 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce RTX 2070 Off | 00000000:01:00.0 On | N/A |
| 28% 31C P8 22W / 175W | 303MiB / …Run Code Online (Sandbox Code Playgroud)