小编Mar*_*ila的帖子

cuda threadfence

我正在编写一个必须执行块间同步的代码(N维和其他内存传输操作的总和).当我增加问题的维度时,结果是错误的.

我用_ threadfence()和第一个维度(N <192)进行同步,这是好的,但如果我插入其他在这段代码中使用_threadfence(),结果对于更多维度是正确的.

一个threadfence()不足以同步?另外,数据结果用在同一个块中.

在编程指南中,信息指示threadfence等待所有内存空间准备就绪(共享和全局)

synchronization cuda gpgpu

2
推荐指数
1
解决办法
9877
查看次数

标签 统计

cuda ×1

gpgpu ×1

synchronization ×1