Cuda优化技术

Question

我编写了一个CUDA代码来解决NP-Complete问题,但性能并不像我怀疑的那样.

我知道"一些"优化技术(使用共享memroy,纹理,zerocopy ......)

CUDA程序员应该了解哪些最重要的优化技术？

Answer 1

这有多个不同的性能提示和相关的"优先级".以下是一些重要提示:

6.避免银行冲突.PS在我的应用程序中,我发现,使用静态分配的共享内存比使用动态分配的内存更快(内核<<< blocks,threads,sharedMemSize >>>())所有这些都在最佳实践中描述指南. (2认同)