小编Ale*_*ias的帖子

CUDA - 合并内存访问和总线宽度

所以我在CUDA中关于合并内存访问的想法是,warp中的线程应该访问连续的内存地址,因为这只会导致单个内存事务(每个地址上的值然后广播到线程)而不是多个那些将以连续方式执行的.

现在,我的总线宽度是48个字节.这意味着我可以在每个内存事务上传输48个字节,对吗?因此,为了充分利用总线,我需要能够一次读取48个字节(通过每个线程读取多个字节 - 内存事务由warp执行).但是,假设没有单个线程一次读取48个字节提供相同的优势(我假设我可以通过读取大小为48字节的结构一次读取48个字节)?

我的合并问题是我必须对数据进行转置.我有很多数据,所以转置它需要时间,如果可能的话我宁愿用于别的东西.

我正在使用Compute Capability 2.0.

memory cuda coalescing

4
推荐指数
2
解决办法
3133
查看次数

标签 统计

coalescing ×1

cuda ×1

memory ×1