标签: cuda

据我从CUDA文档中了解,CUDA内核是异步的,因此我们应该cudaDeviceSynchronize在每次内核启动后调用它们.但是,cudaDeviceSynchronize在时间测量之前,除了一个之外,我尝试了相同的代码(训练神经网络).我发现我得到了相同的结果,但速度在7-12x之间(取决于矩阵大小).

所以,问题是是否有任何理由使用cudaDeviceSynchronize时间测量.

例如:

是否需要先将数据从GPU复制回主机cudaMemcpy？
如果我做矩阵乘法,比如
```
C = A * B
D = C * F
```
Run Code Online (Sandbox Code Playgroud)

我应该放在cudaDeviceSynchronize两者之间吗？

从我的实验看来我没有.

为什么这么cudaDeviceSynchronize慢的程序呢？

cuda gpu gpgpu

use*_*226

2016 05-17

53
推荐指数

3
解决办法

6万
查看次数

是否可以在AMD GPU上运行CUDA？

我想将我的技能扩展到GPU计算.我熟悉光线跟踪和实时图形(OpenGL),但下一代图形和高性能计算似乎是在GPU计算或类似的东西.

我目前在家用电脑上使用AMD HD 7870显卡.我可以为此编写CUDA代码吗？(我的直觉不是,但是因为Nvidia发布了编译器二进制文件,我可能错了).

第二个更普遍的问题是,我从哪里开始GPU计算？我确定这是一个经常被问到的问题,但我看到的最好是从08'开始,我认为从那时起该领域发生了很大的变化.

cuda gpu gpgpu amd nvidia

Lee*_*obs

2015 11-12

52
推荐指数

6
解决办法

11万
查看次数

使用Nvidia的CUDA的压缩库

有没有人知道一个使用NVIDIA的CUDA库实现标准压缩方法(如Zip,GZip,BZip2,LZMA ......)的项目？

我想知道是否能够利用大量并行任务(如压缩)的算法在显卡上的运行速度要比使用双核或四核CPU快得多.

您如何看待这种方法的优缺点？

compression cuda gpgpu

Xn0*_*v3r

2017 01-27

51
推荐指数

3
解决办法

4万
查看次数

如何编译CUDA代码然后将其链接到C++项目？

我正在寻找帮助开始涉及CUDA的项目.我的目标是有一个项目,我可以在本机g ++编译器中编译,但使用CUDA代码.我知道我必须在nvcc编译器中编译我的CUDA代码,但根据我的理解,我可以以某种方式将CUDA代码编译成cubin文件或ptx文件.

这是我的问题:

如何使用nvcc编译成cubin文件或ptx文件？我不需要-c或其他东西吗？
我想使用哪种文件类型？
有哪些g ++命令可以正确地编译和链接项目？

假设如下:

我有一个名为"main.cpp"的文件,其中包含一个main函数,包含cuda.h.
我有另一个名为"cudaFunc.cu"的文件,里面有CUDA代码.比方说,我想添加两个存在于main.cpp中的整数数组.

cuda g++ nvcc

Mat*_*hew

2015 11-10

47
推荐指数

3
解决办法

6万
查看次数

LNK2038:检测到'RuntimeLibrary'不匹配:值'MT_StaticRelease'与file.obj中的值'MD_DynamicRelease'不匹配

我正在整合Matlab,C并Cuda在一个项目中.我使用Matlab mix将c语言编写的matlab mx函数与cuda运行时库连接起来,出现了关于静态发布中的冲突和c文件与库之间的动态发布的链接错误.谁能解决这个问题？

error LNK2038: mismatch detected for 'RuntimeLibrary': value 'MT_StaticRelease' doesn't match value 'MD_DynamicRelease' in file.obj.

Run Code Online (Sandbox Code Playgroud)

c++ matlab cuda visual-c++

Ahm*_*san

2015 11-21

47
推荐指数

4
解决办法

7万
查看次数

Fortran vs C++,Fortran如今仍然在数值分析方面有任何优势吗？

随着C++编译器的快速发展,尤其是英特尔编译器,以及在C/C++代码中直接应用SIMD函数的能力,Fortran在数值计算领域仍然具有任何真正的优势吗？

我来自应用数学背景,我的工作涉及大量的数值分析,计算,优化等,具有严格定义的性能要求.

我对Fortran几乎一无所知,我在C/CUDA/matlab方面有一些经验(如果你认为后者是一种计算机语言),我的日常任务包括分析非常大的数据(例如10GB大的矩阵),并且看起来该程序至少花费2/3的时间来访问内存(这就是为什么我将其部分工作发送到GPU),你是否认为对我来说至少尝试Fortran例程可能是值得的我的代码中一些性能至关重要的部分,以提高我的程序的性能？

因为那里需要完成复杂性和事情,所以如果只有那里有显着的性能优势,我只会这样做,感谢提前.

c c++ fortran cuda

use*_*128

2015 09-09

46
推荐指数

4
解决办法

5万
查看次数

我应该如何以及何时使用cuda API使用倾斜指针？

我对如何使用cudaMalloc()和分配和复制线性内存有很好的理解cudaMemcpy().但是,当我想使用CUDA函数来分配和复制2D或3D矩阵时,我常常会被各种参数所迷惑,特别是关于在处理2D/3D数组时总是存在的倾斜指针.文档很适合提供一些如何使用它们的例子,但它假设我熟悉填充和音高的概念,我不是.

我通常最终会调整我在文档中或网络上其他地方找到的各种示例,但后面的盲目调试非常痛苦,所以我的问题是:

什么是球场？我该如何使用它？如何在CUDA中分配和复制2D和3D阵列？

c++ cuda

Ern*_*run

2013 05-16

45
推荐指数

1
解决办法

1万
查看次数

CUDA:总共有多少并发线程？

我有一个GeForce GTX 580,我想说明可以(理想情况下)实际并行运行的线程总数,以便与2或4个多核CPU进行比较.

deviceQuery为我提供了以下可能的相关信息:

CUDA Capability Major/Minor version number:    2.0
(16) Multiprocessors x (32) CUDA Cores/MP:     512 CUDA 
Maximum number of threads per block:           1024

Run Code Online (Sandbox Code Playgroud)

我想我听说每个CUDA核心都可以并行运行warp,并且warp是32个线程.说卡可以并行运行512*32 = 16384个线程,或者我离开了,CUDA内核是不是真的并行运行？

cuda gpgpu

Esk*_*kil

2017 07-30

44
推荐指数

2
解决办法

4万
查看次数