标签: gpgpu

最快的固定长度6 int数组

回答另一个Stack Overflow问题(这个)我偶然发现了一个有趣的子问题.排序6个整数数组的最快方法是什么？

由于问题是非常低的水平:

我们不能假设库可用(并且调用本身有它的成本),只有普通的C.
避免排空指令流水线(具有非常高的成本),我们也许应该尽量减少分支机构,跳跃,和所有其他类型的控制流断裂的(像那些隐藏在背后的序列点&&或||).
房间受限制,最小化寄存器和内存使用是一个问题,理想情况下,排序可能是最好的.

真的这个问题是一种高尔夫,其目标不是最小化源长度而是执行时间.我把它叫做"Zening"代码在本书的标题中的代码优化禅由迈克尔·亚伯拉什及其续集.

至于为什么它很有趣,有几个层次:

这个例子很简单,易于理解和衡量,并没有太多的C技能
它显示了为问题选择好算法的效果,以及编译器和底层硬件的效果.

这是我的参考(天真的,未优化的)实现和我的测试集.

#include <stdio.h>

static __inline__ int sort6(int * d){

    char j, i, imin;
    int tmp;
    for (j = 0 ; j < 5 ; j++){
        imin = j;
        for (i = j + 1; i < 6 ; i++){
            if (d[i] < d[imin]){
                imin = i;
            }
        }
        tmp = d[j];
        d[j] = d[imin];
        d[imin] = …

Run Code Online (Sandbox Code Playgroud)

sorting algorithm optimization gpgpu sorting-network

kri*_*iss

2019 04-09

396
推荐指数

11
解决办法

7万
查看次数

CUDA如何阻止/扭曲/线程映射到CUDA核心？

我已经使用CUDA几周了,但我对块/ warps/thread的分配有些怀疑. 我从教学的角度(大学项目)研究建筑,所以达到最佳表现并不是我关注的问题.

首先,我想了解我是否直截了当地得到了这些事实:

程序员编写内核,并在线程块网格中组织其执行.
每个块都分配给一个流式多处理器(SM).一旦分配,它就无法迁移到另一个SM.
每个SM将其自己的块拆分为Warps(当前最大大小为32个线程).warp中的所有线程在SM的资源上并发执行.
线程的实际执行由SM中包含的CUDA核执行.线程和核心之间没有特定的映射.
如果warp包含20个线程,但目前只有16个可用核心,则warp将不会运行.
另一方面,如果一个块包含48个线程,它将被分成2个warp并且它们将并行执行,前提是有足够的内存可用.
如果线程在核心上启动,则它会因内存访问或长时间浮点操作而停止,其执行可以在不同的核心上恢复.

他们是对的吗？

现在,我有一个GeForce 560 Ti,因此根据规格,它配备了8个SM,每个包含48个CUDA核心(总共384个核心).

我的目标是确保架构的每个核心都执行相同的SAME指令.假设我的代码不需要比每个SM中可用的代码更多的寄存器,我想象了不同的方法:

我创建了8个块,每个48个线程,因此每个SM有1个块来执行.在这种情况下,48个线程将在SM中并行执行(利用它们可用的所有48个内核)？
如果我推出64个6个线程的块,有什么区别吗？(假设它们将在SM之间平均映射)
如果我在预定的工作中"淹没"GPU(例如,创建每个1024个线程的1024个块),可以合理地假设所有核心将在某个点使用,并且将执行相同的计算(假设线程永远不会失速)？
有没有办法使用Profiler检查这些情况？
这个东西有没有参考？我阅读了"编程大规模并行处理器"和"CUDA应用程序设计与开发"中的CUDA编程指南和专用于硬件架构的章节; 但我无法得到准确的答案.

cuda gpgpu nvidia warp-scheduler

Dae*_*lus

2017 04-03

133
推荐指数

2
解决办法

6万
查看次数

使用c#使用GPU

我试图从我的网格中获得更多的处理能力.

我正在使用所有cpus/core,是否有可能在C#中使用GPU.

任何人都知道任何库或获得任何示例代码？

c# gpu gpgpu

作者

2012 11-17

130
推荐指数

10
解决办法

8万
查看次数

NVIDIA与AMD:GPGPU性能

我想听听有两种编码经验的人的意见.我自己,我只有NVIDIA的经验.

NVIDIA CUDA似乎比竞争对手更受欢迎.(只计算这个论坛上的问题标签,'cuda'优于'opencl'3:1,'nvidia'优于'ati '15:1,并且根本没有'ati-stream'标签.

另一方面,根据维基百科,ATI/AMD显卡应该具有更大的潜力,特别是每美元.目前市场上最快的NVIDIA显卡,GeForce 580(500美元),评级为1.6单精度TFlops.AMD Radeon 6970的售价为370美元,售价为2.7 TFlops.580具有512个执行单元,772 MHz.6970具有1536个执行单元,频率为880 MHz.

AMD相对于NVIDIA的纸张优势有多现实,是否可能在大多数GPGPU任务中实现？整数任务会发生什么？

cuda gpgpu nvidia ati opencl

Eug*_*ith

lucky-day

103
推荐指数

7
解决办法

5万
查看次数

Java中GPGPU/CUDA/OpenCL的最佳方法？

图形处理单元(GPGPU)上的通用计算是一种非常有吸引力的概念,可以利用GPU的强大功能进行任何类型的计算.

我喜欢使用GPGPU进行图像处理,粒子和快速几何操作.

现在看来,这个领域的两个竞争者似乎是CUDA和OpenCL.我想知道:

OpenCL在Windows/Mac上是否可以从Java使用？
有哪些库与OpenCL/CUDA接口？
是否直接使用JNA？
我忘记了什么吗？

任何真实世界的经验/例子/战争故事都值得赞赏.

java cuda gpgpu opencl

Fre*_*rik

lucky-day

92
推荐指数

5
解决办法

4万
查看次数

GPU编程,CUDA还是OpenCL？

我是GPU编程的新手.我有一台配有NVIDIA GeForce GT 640卡的笔记本电脑.我面临两难困境,欢迎提出建议.

如果我选择CUDA - Ubuntu或Windows Clearly CUDA更适合Windows,而在Ubuntu上安装可能是一个严重的问题.我见过一些声称在Ubuntu 11.10和Ubuntu 12.04上安装了CUDA 5的博客帖子.但是,我无法让他们工作.此外,标准CUDA教科书更喜欢在Windows域中工作,并且在Unix/Ubuntu安装和工作方面或多或少都是沉默的.
CUDA或OpenCL - 现在这可能比我的第一个问题更棘手!我主要使用CUDA/Nvidia来接触GPGPU项目,但OpenCL可能是开源中的下一个最佳选择,在Ubuntu中安装可能不会成为问题,尽管这里的一些建议最有用.如果我选择OpenCL而不是CUDA,我会牺牲任何功能吗？

任何帮助或建议？

cuda gpu gpgpu gpu-programming

Ark*_*avo

2015 05-18

73
推荐指数

2
解决办法

5万
查看次数

OpenGL与OpenCL,可以选择和为什么？

使用GLSL进行计算的OpenCL有哪些特性可供选择？尽管有与图形相关的术语和非实用的数据类型,但对OpenGL有什么实际的警告吗？

例如,可以通过使用其他纹理渲染纹理来完成并行函数评估.减少操作可以通过迭代渲染到越来越小的纹理来完成.另一方面,无法以任何有效的方式进行随机写访问(唯一的方法是通过纹理驱动的顶点数据渲染三角形).这可能与OpenCL有关吗？OpenGL还有什么不可能实现的？

opengl gpgpu opencl

dro*_*nus

2011 10-27

71
推荐指数

6
解决办法

8万
查看次数

OpenCL/AMD:深度学习

虽然"googl'ing"并进行了一些研究,但我无法在AMD硬件上找到任何用于科学GPGPU计算和OpenCL的严肃/流行框架/ sdk .我错过了哪些文献和/或软件？

特别是我对深度学习感兴趣.

据我所知,deeplearning.net推荐使用NVIDIA硬件和CUDA框架.此外,我所知道的所有重要的深度学习框架,如Caffe,Theano,Torch,DL4J,......都专注于CUDA而不打算支持OpenCL/AMD.

此外,人们可以找到大量科学论文以及基于CUDA的深度学习任务的相应文献,但基于OpenCL/AMD的解决方案几乎没有.

在2015/16学年,是否有可能出现基于OpenCL/AMD的新解决方案或现有科学框架？

使用OpenCL/AMD进行深度学习的良好开端是什么？有文献吗？教程？杂项来源？

sdk gpgpu opencl neural-network deep-learning

dan*_*451

2015 06-06

58
推荐指数

5
解决办法

2万
查看次数

OpenCL和OpenGL的计算着色器有什么区别？

我知道OpenCL可以控制GPU的内存架构,因此可以实现更好的优化,但是,除此之外,我们可以使用Compute Shaders进行矢量运算(加法,乘法,反演等)吗？

opengl gpgpu opencl compute-shader

Mai*_*iss

2013 04-12

57
推荐指数

1
解决办法

3万
查看次数

nvidia-smi易失性GPU利用率解释？

我知道这nvidia-smi -l 1将每秒钟提供一次GPU使用(类似于以下内容).但是,我很欣赏有关Volatile GPU-Util真正含义的解释.这是使用的SM数量超过总SM数,占用数量还是其他数量？

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.48                 Driver Version: 367.48                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K20c          Off  | 0000:03:00.0     Off |                    0 |
| 30%   41C    P0    53W / 225W |      0MiB /  4742MiB |     96%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla K20c          Off  | 0000:43:00.0     Off |                    0 |
| 36% …

Run Code Online (Sandbox Code Playgroud)

cuda gpu gpgpu nvidia gpu-programming

use*_*674

2016 12-03

57
推荐指数

2
解决办法

3万
查看次数