标签: cuda

如何获得cuda版本？

是否有任何快速命令或脚本来检查安装的CUDA版本？

我在安装目录下找到了4.0的手册,但我不确定它是否是实际安装的版本.

cuda

Hai*_*ang

2018 11-17

390
推荐指数

16
解决办法

73万
查看次数

使用CUDA运行时API检查错误的规范方法是什么？

查看有关CUDA问题的答案和评论,以及CUDA标记维基,我发现通常建议每个API调用的返回状态都应该检查错误.API文档包括像功能cudaGetLastError,cudaPeekAtLastError以及cudaGetErrorString,但什么是把这些结合在一起,以可靠地捕捉和无需大量额外的代码报告错误的最好方法？

cuda error-checking

tal*_*ies

2019 04-22

252
推荐指数

4
解决办法

9万
查看次数

为什么MATLAB在矩阵乘法中如此之快？

我正在使用CUDA,C++,C#和Java进行一些基准测试,并使用MATLAB进行验证和矩阵生成.但是当我乘以MATLAB时,2048x2048甚至更大的矩阵几乎立即成倍增加.

             1024x1024   2048x2048   4096x4096
             ---------   ---------   ---------
CUDA C (ms)      43.11      391.05     3407.99
C++ (ms)       6137.10    64369.29   551390.93
C# (ms)       10509.00   300684.00  2527250.00
Java (ms)      9149.90    92562.28   838357.94
MATLAB (ms)      75.01      423.10     3133.90

Run Code Online (Sandbox Code Playgroud)

只有CUDA具有竞争力,但我认为至少C++会有点接近并且不会60x慢.

所以我的问题是 - MATLAB如何快速地完成它？

C++代码:

float temp = 0;
timer.start();
for(int j = 0; j < rozmer; j++)
{
    for (int k = 0; k < rozmer; k++)
    {
        temp = 0;
        for (int m = 0; m < rozmer; m++)
        {
            temp …

Run Code Online (Sandbox Code Playgroud)

performance matlab cuda matrix-multiplication

Wol*_*olf

2019 01-17

184
推荐指数

7
解决办法

5万
查看次数

NVIDIA NVML驱动程序/库版本不匹配

当我运行时,nvidia-smi我收到以下消息:

Failed to initialize NVML: Driver/library version mismatch

Run Code Online (Sandbox Code Playgroud)

一个小时前我收到了同样的消息并卸载了我的cuda库,我能够运行nvidia-smi,得到以下结果:

在此之后,我cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb从官方的NVIDIA页面下载,然后简单地:

sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}

Run Code Online (Sandbox Code Playgroud)

现在我安装了cuda,但是我得到了上面提到的不匹配错误.

一些可能有用的信息:

跑步cat /proc/driver/nvidia/version我得到:

NVRM version: NVIDIA UNIX x86_64 Kernel Module  378.13  Tue Feb  7 20:10:06 PST 2017
GCC version:  gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)

Run Code Online (Sandbox Code Playgroud)

我正在运行Ubuntu 16.04.2 LTS.

内核版本是:4.4.0-66-generic.

谢谢!

cuda gpu driver nvidia

eta*_*tal

lucky-day

179
推荐指数

13
解决办法

16万
查看次数

了解CUDA网格尺寸,块尺寸和线程组织(简单说明)

如何组织线程由GPU执行？

cuda nvidia

cib*_*en1

2016 02-20

155
推荐指数

2
解决办法

14万
查看次数

从docker容器中使用GPU？

我正在寻找一种从docker容器中使用GPU的方法.

容器将执行任意代码,因此我不想使用特权模式.

有小费吗？

从以前的研究中我了解到run -v和/或LXC cgroup是要走的路,但我不确定如何完全解决这个问题

cuda docker

Reg*_*gan

2014 08-19

138
推荐指数

7
解决办法

12万
查看次数

CUDA如何阻止/扭曲/线程映射到CUDA核心？

我已经使用CUDA几周了,但我对块/ warps/thread的分配有些怀疑. 我从教学的角度(大学项目)研究建筑,所以达到最佳表现并不是我关注的问题.

首先,我想了解我是否直截了当地得到了这些事实:

程序员编写内核,并在线程块网格中组织其执行.
每个块都分配给一个流式多处理器(SM).一旦分配,它就无法迁移到另一个SM.
每个SM将其自己的块拆分为Warps(当前最大大小为32个线程).warp中的所有线程在SM的资源上并发执行.
线程的实际执行由SM中包含的CUDA核执行.线程和核心之间没有特定的映射.
如果warp包含20个线程,但目前只有16个可用核心,则warp将不会运行.
另一方面,如果一个块包含48个线程,它将被分成2个warp并且它们将并行执行,前提是有足够的内存可用.
如果线程在核心上启动,则它会因内存访问或长时间浮点操作而停止,其执行可以在不同的核心上恢复.

他们是对的吗？

现在,我有一个GeForce 560 Ti,因此根据规格,它配备了8个SM,每个包含48个CUDA核心(总共384个核心).

我的目标是确保架构的每个核心都执行相同的SAME指令.假设我的代码不需要比每个SM中可用的代码更多的寄存器,我想象了不同的方法:

我创建了8个块,每个48个线程,因此每个SM有1个块来执行.在这种情况下,48个线程将在SM中并行执行(利用它们可用的所有48个内核)？
如果我推出64个6个线程的块,有什么区别吗？(假设它们将在SM之间平均映射)
如果我在预定的工作中"淹没"GPU(例如,创建每个1024个线程的1024个块),可以合理地假设所有核心将在某个点使用,并且将执行相同的计算(假设线程永远不会失速)？
有没有办法使用Profiler检查这些情况？
这个东西有没有参考？我阅读了"编程大规模并行处理器"和"CUDA应用程序设计与开发"中的CUDA编程指南和专用于硬件架构的章节; 但我无法得到准确的答案.

cuda gpgpu nvidia warp-scheduler

Dae*_*lus

2017 04-03

133
推荐指数

2
解决办法

6万
查看次数

使用Java与Nvidia GPU(cuda)

我正在开发一个用java完成的业务项目,需要巨大的计算能力来计算业务市场.简单的数学,但有大量的数据.

我们订购了一些cuda gpu来尝试,因为cuda不支持Java,我想知道从哪里开始.我应该构建一个JNI接口吗？我应该使用JCUDA还是有其他方法？

我没有这方面的经验,我想如果有人可以指导我,我可以开始研究和学习.

java cuda gpu-programming multi-gpu

Han*_*ans

2018 04-23

131
推荐指数

2
解决办法

9万
查看次数

如何验证CuDNN安装？

我搜索了很多地方,但我得到的是如何安装它,而不是如何验证它是否已安装.我可以验证我的NVIDIA驱动程序已安装,并且已安装CUDA,但我不知道如何验证是否已安装CuDNN.非常感谢帮助,谢谢!

PS.
这是为了实现caffe.目前一切正常,没有启用CuDNN.

cuda computer-vision caffe conv-neural-network cudnn

alf*_*dox

2018 05-12

128
推荐指数

12
解决办法

30万
查看次数

用于CUDA编程的GPU仿真器,无需硬件

问题:是否有Geforce卡的仿真器,可以让我在没有实际硬件的情况下编程和测试CUDA？

信息:

I'm looking to speed up a few simulations of mine in CUDA, but my problem is that I'm not always around my desktop for doing this development. I would like to do some work on my netbook instead, but my netbook doesn't have a GPU. Now as far as I know, you need a CUDA capable GPU to run CUDA. Is there a way to get around this? It would seem like the only way is a GPU …

cpu cuda gpu emulation

Nar*_*ser

2016 06-09

106
推荐指数

5
解决办法

7万
查看次数