重写代码是否有意义,以便通过纹理缓存加载数据(假设我不需要过滤和其他纹理单元选项)或它是否相同?如何通过L1缓存和一些槽式纹理单元加载一些数据?我有一个代码,我可以使用这样的策略,但它有意义吗?
为了说清楚,我的意思是"FERMI上的纹理缓存是一个与L1缓存硬件不同的硬件" - 换句话说,我可以巧妙地为我的代码获得总共L1 +纹理缓存量吗?
textures caching cuda
caching ×1
cuda ×1
textures ×1