在OpenCL中,mem_fence()做什么,而不是barrier()？

可以重新排序内存操作以适应它们运行的设备.该规范(基本上)指出任何内存操作的重新排序必须确保内存在单个工作项中处于一致状态.但是,如果您(例如)执行商店操作并且值决定现在直播工作项特定缓存,直到更好的时间呈现给本地/全局内存？如果您尝试从该内存加载,则写入该值的工作项将其包含在其缓存中,因此没有问题.但是工作组中的其他工作项没有,因此他们可能会读错了值.放置内存栅栏可确保在内存栅栏调用时,本地/全局内存(根据参数)将保持一致(任何缓存都将被刷新,任何重新排序都会考虑到您希望其他线程可能此后需要访问此数据).

我承认它仍然令人困惑,我不会发誓我的理解是100%正确的,但我认为这至少是一般的想法.

跟进:

我发现这个链接谈论CUDA内存栅栏,但同样的一般想法适用于OpenCL:

http://developer.download.nvidia.com/compute/cuda/2_3/toolkit/docs/NVIDIA_CUDA_Programming_Guide_2.3.pdf

查看B.5内存栅栏功能部分.

他们有一个代码示例,用于计算一次调用中数字数组的总和.设置代码以计算每个工作组中的部分和.然后,如果要做更多的求和,代码就会让最后一个工作组完成工作.

因此,在每个工作组中基本上完成了两件事:一个部分和,它更新一个全局变量,然后是一个计数器全局变量的原子增量.

之后,如果还有其他工作要做,将计数器增加到("工作组大小" - 1)值的工作组将被视为最后一个工作组.那个工作组继续完成.

现在,问题(正如他们解释的那样)是,由于内存重新排序和/或缓存,计数器可能会增加,最后一个工作组可能会在部分和全局变量得到它之前开始工作写入全局内存的最新值.

内存围栏将确保在移动经过围栏之前,该部分和变量的值对于所有线程是一致的.

我希望这是有道理的.这令人困惑.

归档时间：	14 年，3 月前
查看次数：	7842 次
最近记录：	9 年，8 月前