有很多stackoverflow线程询问为什么使用纹理的内核不比使用全局内存访问的内核快.答案和评论对我来说似乎总是有点深奥.
Fermi架构通过为加载和存储实现单个统一内存请求路径来解决这一挑战,每个SM多处理器具有L1缓存,并为所有操作(加载,存储和纹理)提供统一的L2缓存.
那么为什么人们期望在费米设备上使用纹理存储器有任何加速,因为对于每次存储器获取(无论它是否与纹理绑定)都使用相同的L2高速缓存.实际上,对于大多数情况,直接访问全局内存应该更快,因为它也通过L1缓存,纹理提取不是.这也是关于stackoverflow的一些相关问题.
有人可以证实这一点或告诉我我缺少什么吗?