我正在编写一个必须执行块间同步的代码(N维和其他内存传输操作的总和).当我增加问题的维度时,结果是错误的.
我用_ threadfence()和第一个维度(N <192)进行同步,这是好的,但如果我插入其他在这段代码中使用_threadfence(),结果对于更多维度是正确的.
一个threadfence()不足以同步?另外,数据结果用在同一个块中.
在编程指南中,信息指示threadfence等待所有内存空间准备就绪(共享和全局)
synchronization cuda gpgpu
cuda ×1
gpgpu ×1
synchronization ×1