标签: cuda

如何运行 GPGPU 内存测试

我们使用了大量的 GPGPU 计算（主要使用 CUDA，但也使用一些 OpenCL）。通常，当用户运行代码时，代码仅在我们的一台主机上出现内存错误。我怀疑其中一张卡有问题。有时它会导致整个系统瘫痪，有时程序会崩溃。

全面测试 GPU 是否可能出现故障的最简单、最快和最彻底的方法是什么？

我知道有些程序是 nvidia 的 CUDA SDK 的一部分：

   deviceQuery
   nvidia-smi

Run Code Online (Sandbox Code Playgroud)

但我需要更彻底的东西。建议？经验？

memory graphics-processing-unit cuda

8
推荐指数

1
解决办法

7295
查看次数

强制无头服务器为 GPU 加载视频驱动程序？

我在 Ubuntu 上运行无头服务器，目的是使用 GPU 进行非图形计算。但是，我发现没有插入内核的显示器无法加载图形驱动程序。

是否有任何原因我不能使用 modprobe 或其他一些机制来强制驱动程序在启动时加载（我不知道驱动程序是否可以容忍没有显示器的情况），或者我完全走错了路线？

解决此问题的最佳做法是什么？

ubuntu headless cuda

6
推荐指数

1
解决办法

2097
查看次数

ESXi 可以将显卡传给 VM 做 CUDA 吗？

我有一个 ESXi 4.1 在可以运行 4 个 16 通道 PCI-e 卡的硬件上运行。我想从 Linux VM 访问底层硬件，以运行一些 CUDA 程序。

到目前为止，我从 Linux VM 内部只能看到通用的 VMware 显卡。我安装了 VMware 工具，lspci但仍然给我相同的结果VGA compatible controller: VMware SVGA II Adapter.

是否可以从 VM 来宾访问 CUDA 设备？

virtualization vmware-esxi cuda

5
推荐指数

1
解决办法

5096
查看次数

如何为 CUDA 设备设置 SGE？

我目前面临将 GPU 服务器集成到现有 SGE 环境中的问题。使用谷歌我找到了一些集群的例子，其中已经设置了这个，但没有关于如何完成的信息。

是否有某种形式的方法或教程？它不必非常冗长，但它应该包含足够的信息来启动和运行“cuda 队列”......

提前致谢...

编辑：要设置一个负载传感器，了解一个节点中有多少 GPU 是空闲的，我已经完成了以下操作：

将 GPU 的计算模式设置为独占
将 GPU 设置为持久模式
将以下脚本作为负载传感器添加到集群配置中（并将其设置为 1 秒。）

#!/bin/sh

主机名=`uname -n`

而 [1]; 做
  读取输入
  结果=$？
  如果 [ $result != 0 ]; 然后
    出口 1
  菲
  if [ "$input" == "quit" ]; 然后
    退出 0
  菲


  smitool=`which nvidia-smi`
  结果=$？
  如果 [ $result != 0 ]; 然后
    gpusav=0
    gpu=0
  别的
    gpustotal=`nvidia-smi -L|wc -l`
    gpusused=`nvidia-smi |grep "进程名称" -A 6|grep -v +-|grep -v \|=|grep -v 用法|grep -v "没有运行"|wc -l`
    gpusavail=`echo $gpustotal-$gpusused|bc` …

gridengine cuda

5
推荐指数

2
解决办法

1万
查看次数

当“未找到正在运行的进程”时，为什么我的 CUDA GPU-Util 约为 70%？

在使用 2 个 Tesla K80 卡配置系统后，我注意到在运行时nvidia-smi4 个 GPU 中的一个负载很重，尽管“没有找到正在运行的进程”。为什么会发生这种情况，我该如何纠正？

这是来自的输出nvidia-smi：

?  compute-0-1: ~/> nvidia-smi
Mon Sep 26 14:48:00 2016       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 361.77                 Driver Version: 361.77                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 0000:05:00.0     Off |                    0 |
| N/A   34C    P0    57W / 149W |      0MiB / 11441MiB |      0%      Default …

Run Code Online (Sandbox Code Playgroud)

5
推荐指数

1
解决办法

7338
查看次数

标签统计

cuda ×5

graphics-processing-unit ×1

virtualization ×1

vmware-esxi ×1