小编use*_*741的帖子

为什么CUDA矢量类型(int4,float4)更快?

我已经读过CUDA可以从全局内存中读取128个字节,因此有意义的是,warp中的每个线程都可以以合并模式读取/写入4个字节,总共128个字节.

使用int4和float4等矢量类型读/写速度更快.

但我不明白为什么会这样.如果warp中的每个线程都请求16个字节,并且一次只能在总线上移动128个字节,那么性能增益来自何处?

是因为发生了更少的内存请求,即它说"在这个warp中为每个线程抓取16个字节"一次,反对"在这个warp中为每个线程抓取4个字节"4次?我在文献中找不到任何说明矢量类型更快的确切原因.

cuda

9
推荐指数
2
解决办法
3223
查看次数

标签 统计

cuda ×1