小编bet*_*tch的帖子

又一个CUDA纹理内存线程.(为什么Fermi上的纹理记忆会更快?)

有很多stackoverflow线程询问为什么使用纹理的内核不比使用全局内存访问的内核快.答案和评论对我来说似乎总是有点深奥.

关于Fermi架构NVIDIA白皮书说白色为黑色:

Fermi架构通过为加载和存储实现单个统一内存请求路径来解决这一挑战,每个SM多处理器具有L1缓存,并为所有操作(加载,存储和纹理)提供统一的L2缓存.

那么为什么人们期望在费米设备上使用纹理存储器有任何加速,因为对于每次存储器获取(无论它是否与纹理绑定)都使用相同的L2高速缓存.实际上,对于大多数情况,直接访问全局内存应该更快,因为它也通过L1缓存,纹理提取不是.这也是关于stackoverflow的一些相关问题.

有人可以证实这一点或告诉我我缺少什么吗?

textures caching cuda

3
推荐指数
1
解决办法
2364
查看次数

标签 统计

caching ×1

cuda ×1

textures ×1