相关疑难解决方法(0)

根据CUDA 5.0编程指南,如果我同时使用L1和L2缓存(在Fermi或Kepler上),则所有全局内存操作都是使用128字节内存事务完成的.但是,如果我仅使用L2,则使用32字节内存事务(第F.4.2章).

我们假设所有缓存都是空的.如果我有一个warp,每个线程以完全对齐的方式访问一个4字节字,这将导致L1 + L2情况下的1x128B事务,以及仅L2情况下的4x32B事务.是对的吗？

我的问题是 - 4个32B交易是否比单个128B交易慢？我对前费米硬件的直觉表明它会更慢,但也许在新硬件上不再是这样吗？或者我可以只看一下带宽利用率来判断我的内存访问效率？

5
推荐指数

1
解决办法

2509
查看次数