我有'N'个线程同时在设备上执行,它们需要从全局内存中浮动M*N. 访问全局内存合并的正确方法是什么?在这件事情上,共享内存如何帮助?
gpu coalesce shared-memory
coalesce ×1
gpu ×1
shared-memory ×1