Ope*_*way 12 cuda gpu sse simd vectorization
我稍微谈了一下,但现在我不清楚是否有一些使用CUDA编程的GPU可以利用或者可以使用类似于SSE SIMD扩展的指令; 例如,我们是否可以在双精度中总结两个浮点向量,每个向量具有4个值.如果是这样,我想知道为向量的前4个值中的每一个使用更轻的线程或者使用SIMD是否更好.
Tom*_*son 18
CUDA程序编译为PTX指令集.该指令集不包含SIMD指令.因此,CUDA程序无法明确使用SIMD.
然而,CUDA的整个想法是大规模地进行SIMD.单个线程是称为warps的组的一部分,其中每个线程执行完全相同的指令序列(尽管某些线程可能会抑制某些指令,从而产生不同执行序列的错觉).NVidia将其称为单指令,多线程(SIMT),但它基本上是SIMD.
| 归档时间: |
|
| 查看次数: |
7071 次 |
| 最近记录: |