标签: nvidia

使用 Tensorflow 进行基准测试和查找瓶颈

我正在寻找可以帮助我创建用于训练和评估 CNN 模型的数据流时间表的工具。

我想知道每个硬件组件需要多长时间才能完成其工作，并希望找到瓶颈。例如，需要多长时间：

做CPU预处理（如加载和批处理数据）
将数据沿 PCIe 传递到 GPU
使用batch得到梯度下降
将数据沿 PCIe 传回 CPU
平均来自多个 GPU 的梯度下降结果（如果相关）
在 CPU 上做剩余的处理

我正在Tensorflow 教程中对CIFAR10 CNN进行这项研究，目的是将研究结果移植到更复杂的 CNN。我正在与：

GPU：2x NVIDIA GTX 1080 Ti
CPU：英特尔 i7-6850K
内存：64GB
操作系统：Ubuntu 16.04

ubuntu benchmarking nvidia intel tensorflow

Mar*_*onn

2017 12-31

5
推荐指数

0
解决办法

314
查看次数

dlib 不使用 CUDA

我使用 pip 安装了 dlib。我的显卡支持 CUDA，但是在运行 dlib 时，它没有使用 GPU。

我在 ubuntu 18.04 上工作

Python 3.6.5 (default, Apr  1 2018, 05:46:30) 
[GCC 7.3.0] on linux
>>> import dlib
>>> dlib.DLIB_USE_CUDA
False

Run Code Online (Sandbox Code Playgroud)

我还安装了 NVidia Cuda Compile 驱动程序，但仍然无法正常工作。

nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Nov__3_21:07:56_CDT_2017
Cuda compilation tools, release 9.1, V9.1.85

Run Code Online (Sandbox Code Playgroud)

任何人都可以帮助我如何让它工作。?

python ubuntu nvidia dlib

Apu*_*ogi

2018 08-21

5
推荐指数

2
解决办法

2万
查看次数

在 docker 中使用 OpenGL 和 nvidia-docker2

我正在尝试在 Ubuntu 16.04 容器中运行 OpenGL 应用程序 ( Gazebo )，并且我希望能够在可用时利用 nvidia 图形加速。我试图弄清楚推荐的、官方支持的（希望由 nvidia 支持）实现这一目标的方法是什么。

我的要求：

创建图像非常耗时，所以我想为所有类型的图形（nvidia、mesa，即其他所有内容）提供一个图像，或者如果分开，它们应该“从”一个具有批量的公共基础图像构建的内容。
nvidia 容器应该在不同的系统上工作，这些系统可能安装了不同的 nvidia 卡和驱动程序版本。
我需要使用 Ubuntu 16.04，公司需要这个，尽管这是这些要求中最不重要的，例如，如果这只能在 18.04 上完成，我也会感兴趣。

到目前为止我尝试过的：

只需为 nvidia 和其他所有内容构建单独的图像，使用FROM nvidia/opengl:1.0-glvnd-runtime-ubuntu16.04. 这很有效，但需要构建两个映像，这需要两倍的时间和两倍的磁盘空间。 打破要求 1。
首先从构建“普通”（台面/英特尔）映像ubuntu:16.04，在那里完成所有耗时的工作，然后将其用作另一个映像的基础，其中从官方“运行文件”手动安装 NVIDIA 驱动程序。如果驱动程序与安装在主机上的驱动程序完全匹配，则此方法有效，但如果主机具有不同（例如较旧）版本，则无效。打破要求 2。
什么都不做，只需使用--runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all -e NVIDIA_DRIVER_CAPABILITIES=all. 如果我这样做，会nvidia-smi看到卡，但 OpenGL（例如glxinfo）仍然尝试加载swrast驱动程序，这不起作用。

我在野外看到的大多数示例都使用nvidia/opengl:1.0-glvnd-runtime-ubuntu16.04基础，并且在我的一生中，我找不到该图像中如何安装 nvidia 驱动程序（如果有的话）。我还在某处读到过，使用 nvidia 容器运行时（即nvidia-docker2我正在使用的），您不需要安装驱动程序，但情况似乎并非如此，至少对于 OpenGL 而言并非如此。

那么，有没有办法为 nvidia 和非 nvidia 创建满足我所有要求的容器映像，或者我只是想要太多？

opengl ubuntu nvidia docker

Dan*_*ele

2018 12-15

5
推荐指数

1
解决办法

1868
查看次数

如何使用 Rapids.ai 在 GPU 中做矩阵点积

我正在使用CUDF，它是 Nvidia 的Rapids ML 套件的一部分。

使用这个套件我将如何做点积？

df = cudf.DataFrame([('a', list(range(20))),
('b', list(reversed(range(20)))),
('c', list(range(20)))])

Run Code Online (Sandbox Code Playgroud)

例如，我将如何使用相同的 cudf 对象在上述 Dataframe 上执行点积？

python nvidia rapids cudf

Pab*_*jim

2019 02-02

5
推荐指数

1
解决办法

433
查看次数

clinfo 显示“平台数 0”

我正在 Centos 7.6 64 位和 Nvidia 显卡上进行开发。我已经安装了 Nvidia 驱动程序和 cuda 驱动程序。

但是，当我运行“clinfo”时，它显示：

Number of platforms                               0

Run Code Online (Sandbox Code Playgroud)

我应该检查什么以及如何解决？

nvidia opencl centos7

Ans*_*ark

lucky-day

5
推荐指数

1
解决办法

7122
查看次数

有没有办法将我的所有 GPU 设置为非 XLA，这样我就可以使用多个 gpu 而不是一个 gpu 进行训练？

我想使用多个 GPU 训练 keras 模型。我的理解是您目前无法使用 XLA 训练多个 GPU。问题是我不知道如何关闭 XLA。每个 GPU 都被列为 xla gpu。

作为参考，我在最新的 Ubuntu 桌面上使用了 3 个 RTX2070。nvidia-smi 确实显示了所有 3 个 gpu。

我试过卸载并重新安装tensorflow-gpu。那没有帮助。

从

keras.utils.training_utils import multi_gpu_model
model = multi_gpu_model(model,gpus=3)

Run Code Online (Sandbox Code Playgroud)

值错误：

 To call `multi_gpu_model` with `gpus=3`, we expect the following devices to be available: ['/cpu:0', '/gpu:0', '/gpu:1', '/gpu:2']. However this machine only has: ['/cpu:0', '/xla_cpu:0', '/xla_gpu:0', '/xla_gpu:1', '/xla_gpu:2']. Try reducing `gpus`.

Run Code Online (Sandbox Code Playgroud)

编辑：我正在使用tensorflow-gpu，实际上我刚刚确认它甚至没有使用一个 gpu。我通过将批量大小提高到 10,000 来确认这一点，并且没有看到 nvidia-smi 的变化，但我确实通过 htop 看到了 CPU/内存使用的变化。

编辑2：

tf.test.gpu_device_name()

Run Code Online (Sandbox Code Playgroud)

只打印一个空字符串

然而

    from …

Run Code Online (Sandbox Code Playgroud)

gpu nvidia keras tensorflow

use*_*311

2019 08-10

5
推荐指数

1
解决办法

729
查看次数

CUDA 数组如何存储在 GPU 内存中？它们在物理上是否是线性的？

根据 CUDA 工具包文档：

https://docs.nvidia.com/cuda/cuda-c-programming-guide/

设备内存可以分配为线性内存或 CUDA 数组。

这是否意味着 CUDA 数组不是线性存储在 GPU 内存中的？

在我的实验中，我成功地基于 cudamemcpy 函数从 GPU 内存中转储了我的数据。如果我的数据是由cudaMallocArray分配的，是不是意味着数据在GPU内存中不是物理线性的，需要通过其他API提取？

c++ cuda gpu nvidia

Phi*_*ana

2019 10-23

5
推荐指数

1
解决办法

353
查看次数

运行时错误：CUDA 内存不足。尝试分配 2.86 GiB（GPU 0；10.92 GiB 总容量；...PyTorch 总共保留了 9.06 GiB）

这是什么意思9.06 GiB reserved in total by PyTorch。

如果我7.80 GiB total capacity对同一个脚本使用较小尺寸的 GPU ，它6.20 GiB reserved in total by PyTorch 会显示 Pytorch 中的预留如何工作以及为什么预留内存会根据 GPU 尺寸而变化？

为了解决错误消息，RuntimeError: CUDA out of memory. Tried to allocate 2.86 GiB (GPU 0; 10.92 GiB total capacity; 9.02 GiB already allocated; 1.29 GiB free; 9.06 GiB reserved in total by PyTorch)我尝试将批量大小从 10 减少到 5 到 3。我尝试使用del x_train1. 我也试过使用torch.cuda.empty_cache(). with torch.no_grad()在应用预x_train1 = bert_model(train_indices)[2]训练模型以及训练和验证新模型时，我也使用过。但它们都不起作用。

这是跟踪： …

gpu nvidia pytorch

KoK*_*oKo

2020 04-16

5
推荐指数

0
解决办法

2779
查看次数

使用 X11 从远程 docker 运行 Rviz

我计划在远程服务器上的 docker 中运行 ROS Rviz，期望 Rviz GUI 显示在我的本地计算机上。但我无法完成。任何帮助，将不胜感激。

我在远程服务器上的 ROS docker 镜像基于 ros-melodic-desktop-full 镜像（根据ROS Using Hardware Acceleration with Docker，ros-melodic-desktop-full 已经包含 nvidia-docker2）。下面列出的是我的 Dockerfile：

FROM osrf/ros:melodic-desktop-full

# strace, xterm, mesa-utils are all for debugging X display. Especially, mesa-utils has glxinfo and glxgear
RUN apt-get update && apt-get install -y xauth strace xterm mesa-utils

# nvidia-container-runtime
ENV NVIDIA_VISIBLE_DEVICES \
    ${NVIDIA_VISIBLE_DEVICES:-all}
ENV NVIDIA_DRIVER_CAPABILITIES \
    ${NVIDIA_DRIVER_CAPABILITIES:+$NVIDIA_DRIVER_CAPABILITIES,}graphics

# QT_X11_NO_MITSHM is for running X server and X client on different machines.
ENV QT_X11_NO_MITSHM 1

ENTRYPOINT …

Run Code Online (Sandbox Code Playgroud)

opengl nvidia x11-forwarding ros docker

don*_*s20

2020 04-19

5
推荐指数

0
解决办法

2190
查看次数

如何让 Steam 在 Ubuntu 20.04 上运行

Steam 无法运行 =( 这是我尝试过的：

我使用 nvidia 驱动程序全新安装了 Ubuntu 20.04（通过 Ubuntu Server Live Installer + ubuntu-desktop 软件包）：

$ nvidia-smi
Mon Jun 22 10:26:49 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.64       Driver Version: 440.64       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 2070    Off  | 00000000:01:00.0  On |                  N/A |
| 28%   31C    P8    22W / 175W |    303MiB / …

Run Code Online (Sandbox Code Playgroud)

nvidia steam ubuntu-20.04

43T*_*cts

2020 06-23

5
推荐指数

2
解决办法

8562
查看次数