相关疑难解决方法(0)

CUDA全局内存事务的成本

根据CUDA 5.0编程指南,如果我同时使用L1和L2缓存(在Fermi或Kepler上),则所有全局内存操作都是使用128字节内存事务完成的.但是,如果我仅使用L2,则使用32字节内存事务(第F.4.2章).

我们假设所有缓存都是空的.如果我有一个warp,每个线程以完全对齐的方式访问一个4字节字,这将导致L1 + L2情况下的1x128B事务,以及仅L2情况下的4x32B事务.是对的吗?

我的问题是 - 4个32B交易是否比单个128B交易慢?我对前费米硬件的直觉表明它会更慢,但也许在新硬件上不再是这样吗?或者我可以只看一下带宽利用率来判断我的内存访问效率?

cuda

5
推荐指数
1
解决办法
2509
查看次数

标签 统计

cuda ×1