我有b个块,每个块有t个线程.我可以用
__syncthreads()
Run Code Online (Sandbox Code Playgroud)
同步特定块中的线程.例如
__global__ void aFunction()
{
for(i=0;i<10;i++)
{
//execute something
__syncthreads();
}
}
Run Code Online (Sandbox Code Playgroud)
但我的问题是同步所有块中的所有线程.我怎样才能做到这一点?
我已经浏览了很多论坛帖子和NVIDIA文档,但我无法理解它是什么__threadfence()以及如何使用它.有人可以解释一下内在的目的是什么吗?
cuda ×2