查看有关CUDA问题的答案和评论,以及CUDA标记维基,我发现通常建议每个API调用的返回状态都应该检查错误.API文档包括像功能cudaGetLastError,cudaPeekAtLastError以及cudaGetErrorString,但什么是把这些结合在一起,以可靠地捕捉和无需大量额外的代码报告错误的最好方法?
好吧,我的问题可能是一般性的,因为我现在没有具体的问题。
然而,根据我过去的经验,我从未见过CUDA的只读数据缓存优于其他类型的内存访问,例如全局内存或常量内存,在最好的情况下,只读数据缓存将与直接非合并全局一样快内存访问,这让我觉得我可能做错了什么。
所以我的问题是在什么情况下只读数据缓存会比其他类型的内存访问更快?