从CUDA Compute Capability 2.0(Fermi)全局内存访问通过768 KB L2缓存工作.看起来,开发人员不再关心全球存储库.但是全局内存仍然很慢,因此正确的访问模式很重要.现在重点是尽可能多地使用/重用L2.我的问题是,怎么样?我会感谢一些详细的信息,L2如何工作以及如何在需要时组织和访问全局内存,例如,每个线程100-200个元素数组.
cuda
cuda ×1