根据我在CUDA文档中的描述,共享内存库冲突与sm_20及更高版本无关,因为在同时请求时会广播值,从而防止出现任何类型的序列化延迟.
文件:
共享存储器硬件在计算能力2.x的设备上得到改进,以支持多个广播字,并且为每个线程的8位,16位,64位或128位的访问产生更少的存储体冲突(G部分). 4.3).
有人可以证实我的断言吗?
cuda bank-conflict gpu-shared-memory
bank-conflict ×1
cuda ×1
gpu-shared-memory ×1