需要哪些卡和计算功能才能充分利用CUDA 5的功能

Question

我们刚刚收到了CUDA 5的稳定版本.有一些像Kepler这样的新术语,能够使用性能更好的MPI,同时运行32个应用程序的同一张卡.我有点困惑,并寻找这些问题的答案:

要充分利用CUDA 5的功能需要哪些卡和计算功能？
新功能仅适用于Kepler架构,如GPUDirect,动态并行,Hyper Q和动态并行.
如果我们有Fermi架构,那么使用CUDA 5会带来哪些好处.除了在Linux和Eclipse上使用NSight之外,它还能带来什么好处.我认为最重要的特征是建立图书馆的能力？
从CUDA 4到CUDA 5,您是否看到了任何性能改进(我在Linux机器上获得了一些加速)

我发现了一些类似的文件

然而,更好,简短的描述可能会使我们的思想更清晰.

PS:请不要限制上述问题的答案.我可能会遗漏一些类似的问题.

Answer 1

动态并行性需要计算能力3.5(例如GK110),因为早期的GPU没有线程启动内核或直接将其他API调用注入硬件命令队列所需的硬件.

Hyper-Q需要计算能力3.5.

SHFL内在函数需要CC 3.0(GK104)

CUDA 5中的设备代码链接,NSight EE,nvprof,性能改进和错误修复使Fermi和早期的GPU受益.