共享内存带宽Fermi vs Kepler GPU

P M*_*cki 9 cuda gpu gpgpu nvidia

在访问共享内存时,Kepler的费用是Fermi的2倍还是4倍?

编程指南说明:"每个存储区每两个时钟周期带宽为32位"(对于2.X),"每个存储区的每个时钟周期带宽为64位"(3.X),因此暗示了4倍?

Tom*_*Tom 9

在Fermi上,每个SM有32个存储区,每两个时钟周期提供32位.

在开普勒,每个SMX有32个存储区,每个时钟周期提供64位.然而,由于开普勒SMX从根本上重新设计,以提高能效,而且由于运行速度快的时钟吸引了大量的电能,开普勒从慢得多的核心时钟.有关更多信息,请查看GTC 的Inside Kepler讲话,大约8分钟.

所以问题的答案是开普勒有2倍,而不是4倍.

下一版本的文档(CUDA 5.0)应该更好地解释这一点.