pho*_*oad 6 sdk language-features cuda computer-architecture
我们刚刚收到了CUDA 5的稳定版本.有一些像Kepler这样的新术语,能够使用性能更好的MPI,同时运行32个应用程序的同一张卡.我有点困惑,并寻找这些问题的答案:
我发现了一些类似的文件
然而,更好,简短的描述可能会使我们的思想更清晰.
PS:请不要限制上述问题的答案.我可能会遗漏一些类似的问题.
动态并行性需要计算能力3.5(例如GK110),因为早期的GPU没有线程启动内核或直接将其他API调用注入硬件命令队列所需的硬件.
Hyper-Q需要计算能力3.5.
SHFL内在函数需要CC 3.0(GK104)
CUDA 5中的设备代码链接,NSight EE,nvprof,性能改进和错误修复使Fermi和早期的GPU受益.