标签: nvidia

使用 Tensorflow 进行基准测试和查找瓶颈

我正在寻找可以帮助我创建用于训练和评估 CNN 模型的数据流时间表的工具。

我想知道每个硬件组件需要多长时间才能完成其工作,并希望找到瓶颈。例如,需要多长时间:

  • 做CPU预处理(如加载和批处理数据)
  • 将数据沿 PCIe 传递到 GPU
  • 使用batch得到梯度下降
  • 将数据沿 PCIe 传回 CPU
  • 平均来自多个 GPU 的梯度下降结果(如果相关)
  • 在 CPU 上做剩余的处理

我正在Tensorflow 教程中CIFAR10 CNN进行这项研究,目的是将研究结果移植到更复杂的 CNN。我正在与:

  • GPU:2x NVIDIA GTX 1080 Ti
  • CPU:英特尔 i7-6850K
  • 内存:64GB
  • 操作系统:Ubuntu 16.04

ubuntu benchmarking nvidia intel tensorflow

5
推荐指数
0
解决办法
314
查看次数

dlib 不使用 CUDA

我使用 pip 安装了 dlib。我的显卡支持 CUDA,但是在运行 dlib 时,它没有使用 GPU。

我在 ubuntu 18.04 上工作

Python 3.6.5 (default, Apr  1 2018, 05:46:30) 
[GCC 7.3.0] on linux
>>> import dlib
>>> dlib.DLIB_USE_CUDA
False
Run Code Online (Sandbox Code Playgroud)

我还安装了 NVidia Cuda Compile 驱动程序,但仍然无法正常工作。

nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Nov__3_21:07:56_CDT_2017
Cuda compilation tools, release 9.1, V9.1.85
Run Code Online (Sandbox Code Playgroud)

任何人都可以帮助我如何让它工作。?

python ubuntu nvidia dlib

5
推荐指数
2
解决办法
2万
查看次数

在 docker 中使用 OpenGL 和 nvidia-docker2

我正在尝试在 Ubuntu 16.04 容器中运行 OpenGL 应用程序 ( Gazebo ),并且我希望能够在可用时利用 nvidia 图形加速。我试图弄清楚推荐的、官方支持的(希望由 nvidia 支持)实现这一目标的方法是什么。

我的要求:

  1. 创建图像非常耗时,所以我想为所有类型的图形(nvidia、mesa,即其他所有内容)提供一个图像,或者如果分开,它们应该“从”一个具有批量的公共基础图像构建的内容。
  2. nvidia 容器应该在不同的系统上工作,这些系统可能安装了不同的 nvidia 卡和驱动程序版本。
  3. 我需要使用 Ubuntu 16.04,公司需要这个,尽管这是这些要求中最不重要的,例如,如果这只能在 18.04 上完成,我也会感兴趣。

到目前为止我尝试过的:

  • 只需为 nvidia 和其他所有内容构建单独的图像,使用FROM nvidia/opengl:1.0-glvnd-runtime-ubuntu16.04. 这很有效,但需要构建两个映像,这需要两倍的时间和两倍的磁盘空间。 打破要求 1。
  • 首先从 构建“普通”(台面/英特尔)映像ubuntu:16.04,在那里完成所有耗时的工作,然后将其用作另一个映像的基础,其中从官方“运行文件”手动安装 NVIDIA 驱动程序。如果驱动程序与安装在主机上的驱动程序完全匹配,则此方法有效,但如果主机具有不同(例如较旧)版本,则无效。打破要求 2。
  • 什么都不做,只需使用--runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all -e NVIDIA_DRIVER_CAPABILITIES=all. 如果我这样做,会nvidia-smi看到卡,但 OpenGL(例如glxinfo)仍然尝试加载swrast驱动程序,这不起作用。

我在野外看到的大多数示例都使用nvidia/opengl:1.0-glvnd-runtime-ubuntu16.04基础,并且在我的一生中,我找不到该图像中如何安装 nvidia 驱动程序(如果有的话)。我还在某处读到过,使用 nvidia 容器运行时(即nvidia-docker2我正在使用的),您不需要安装驱动程序,但情况似乎并非如此,至少对于 OpenGL 而言并非如此。

那么,有没有办法为 nvidia 和非 nvidia 创建满足我所有要求的容器映像,或者我只是想要太多?

opengl ubuntu nvidia docker

5
推荐指数
1
解决办法
1868
查看次数

如何使用 Rapids.ai 在 GPU 中做矩阵点积

我正在使用CUDF,它是 Nvidia 的Rapids ML 套件的一部分。

使用这个套件我将如何做点积?

df = cudf.DataFrame([('a', list(range(20))),
('b', list(reversed(range(20)))),
('c', list(range(20)))])
Run Code Online (Sandbox Code Playgroud)

例如,我将如何使用相同的 cudf 对象在上述 Dataframe 上执行点积?

python nvidia rapids cudf

5
推荐指数
1
解决办法
433
查看次数

clinfo 显示“平台数 0”

我正在 Centos 7.6 64 位和 Nvidia 显卡上进行开发。我已经安装了 Nvidia 驱动程序和 cuda 驱动程序。

但是,当我运行“clinfo”时,它显示:

Number of platforms                               0
Run Code Online (Sandbox Code Playgroud)

我应该检查什么以及如何解决?

nvidia opencl centos7

5
推荐指数
1
解决办法
7122
查看次数

有没有办法将我的所有 GPU 设置为非 XLA,这样我就可以使用多个 gpu 而不是一个 gpu 进行训练?

我想使用多个 GPU 训练 keras 模型。我的理解是您目前无法使用 XLA 训练多个 GPU。问题是我不知道如何关闭 XLA。每个 GPU 都被列为 xla gpu。

作为参考,我在最新的 Ubuntu 桌面上使用了 3 个 RTX2070。nvidia-smi 确实显示了所有 3 个 gpu。

我试过卸载并重新安装tensorflow-gpu。那没有帮助。

keras.utils.training_utils import multi_gpu_model
model = multi_gpu_model(model,gpus=3)
Run Code Online (Sandbox Code Playgroud)

值错误:

 To call `multi_gpu_model` with `gpus=3`, we expect the following devices to be available: ['/cpu:0', '/gpu:0', '/gpu:1', '/gpu:2']. However this machine only has: ['/cpu:0', '/xla_cpu:0', '/xla_gpu:0', '/xla_gpu:1', '/xla_gpu:2']. Try reducing `gpus`.
Run Code Online (Sandbox Code Playgroud)

编辑:我正在使用tensorflow-gpu,实际上我刚刚确认它甚至没有使用一个 gpu。我通过将批量大小提高到 10,000 来确认这一点,并且没有看到 nvidia-smi 的变化,但我确实通过 htop 看到了 CPU/内存使用的变化。

编辑2:

tf.test.gpu_device_name()
Run Code Online (Sandbox Code Playgroud)

只打印一个空字符串

然而

    from …
Run Code Online (Sandbox Code Playgroud)

gpu nvidia keras tensorflow

5
推荐指数
1
解决办法
729
查看次数

CUDA 数组如何存储在 GPU 内存中?它们在物理上是否是线性的?

根据 CUDA 工具包文档:

https://docs.nvidia.com/cuda/cuda-c-programming-guide/

设备内存可以分配为线性内存或 CUDA 数组。

这是否意味着 CUDA 数组不是线性存储在 GPU 内存中的?

在我的实验中,我成功地基于 cudamemcpy 函数从 GPU 内存中转储了我的数据。如果我的数据是由cudaMallocArray分配的,是不是意味着数据在GPU内存中不是物理线性的,需要通过其他API提取?

c++ cuda gpu nvidia

5
推荐指数
1
解决办法
353
查看次数

运行时错误:CUDA 内存不足。尝试分配 2.86 GiB(GPU 0;10.92 GiB 总容量;...PyTorch 总共保留了 9.06 GiB)

这是什么意思9.06 GiB reserved in total by PyTorch

如果我7.80 GiB total capacity对同一个脚本使用较小尺寸的 GPU ,它6.20 GiB reserved in total by PyTorch 会显示 Pytorch 中的预留如何工作以及为什么预留内存会根据 GPU 尺寸而变化?

为了解决错误消息,RuntimeError: CUDA out of memory. Tried to allocate 2.86 GiB (GPU 0; 10.92 GiB total capacity; 9.02 GiB already allocated; 1.29 GiB free; 9.06 GiB reserved in total by PyTorch)我尝试将批量大小从 10 减少到 5 到 3。我尝试使用del x_train1. 我也试过使用torch.cuda.empty_cache(). with torch.no_grad()在应用预x_train1 = bert_model(train_indices)[2]训练模型以及训练和验证新模型时,我也使用过。但它们都不起作用。

这是跟踪: …

gpu nvidia pytorch

5
推荐指数
0
解决办法
2779
查看次数

使用 X11 从远程 docker 运行 Rviz

我计划在远程服务器上的 docker 中运行 ROS Rviz,期望 Rviz GUI 显示在我的本地计算机上。但我无法完成。任何帮助,将不胜感激。

我在远程服务器上的 ROS docker 镜像基于 ros-melodic-desktop-full 镜像(根据ROS Using Hardware Acceleration with Docker,ros-melodic-desktop-full 已经包含 nvidia-docker2)。下面列出的是我的 Dockerfile:

FROM osrf/ros:melodic-desktop-full

# strace, xterm, mesa-utils are all for debugging X display. Especially, mesa-utils has glxinfo and glxgear
RUN apt-get update && apt-get install -y xauth strace xterm mesa-utils

# nvidia-container-runtime
ENV NVIDIA_VISIBLE_DEVICES \
    ${NVIDIA_VISIBLE_DEVICES:-all}
ENV NVIDIA_DRIVER_CAPABILITIES \
    ${NVIDIA_DRIVER_CAPABILITIES:+$NVIDIA_DRIVER_CAPABILITIES,}graphics

# QT_X11_NO_MITSHM is for running X server and X client on different machines.
ENV QT_X11_NO_MITSHM 1

ENTRYPOINT …
Run Code Online (Sandbox Code Playgroud)

opengl nvidia x11-forwarding ros docker

5
推荐指数
0
解决办法
2190
查看次数

如何让 Steam 在 Ubuntu 20.04 上运行

Steam 无法运行 =( 这是我尝试过的:

我使用 nvidia 驱动程序全新安装了 Ubuntu 20.04(通过 Ubuntu Server Live Installer + ubuntu-desktop 软件包):

$ nvidia-smi
Mon Jun 22 10:26:49 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.64       Driver Version: 440.64       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 2070    Off  | 00000000:01:00.0  On |                  N/A |
| 28%   31C    P8    22W / 175W |    303MiB / …
Run Code Online (Sandbox Code Playgroud)

nvidia steam ubuntu-20.04

5
推荐指数
2
解决办法
8562
查看次数