计算着色器共享内存包含工件

Rob*_*dob 4 opengl glsl compute-shader opengl-4

我一直在尝试编写一般的计算着色器高斯模糊实现.

它基本上可以工作,但它包含的工件即使在场景静止时也会改变每一帧.我花了几个小时试图调试这个.我已经走了尽可能确保不超出界限,展开所有循环,用常量替换制服,但工件仍然存在.

我已经在3个不同的机器/ GPU(2个nvidia,1个intel)上测试了原始代码和工件,它们都产生相同的结果.使用普通C++代码模拟执行向前和向后执行的工作组的代码执行的展开/常量版本不会产生这些错误.

在此输入图像描述

通过分配[96] [96]而不是[16] [48]的共享数组,我可以消除大部分伪像.

这让我想到了我错过了一个逻辑错误,因此我设法生成了一个非常简单的着色器,它仍然会在较小的范围内产生错误,如果有人能指出原因,我会很感激.我检查了很多文档,找不到任何错误.

分配了一个16x48浮点数的共享数组,这是3072字节,大约是最小共享内存限制的10%.

着色器在16x16工作组中启动,因此每个线程将写入3个唯一位置,并从单个唯一位置读回

然后纹理作为HSV渲染,其中0-1之间的值将映射到色调0-360(红色 - 青色 - 红色),并且超出边界的值将是红色.

#version 430
//Execute in 16x16 sized thread blocks
layout(local_size_x=16,local_size_y=16) in;
uniform layout (r32f) restrict writeonly image2D _imageOut;
shared float hoz[16][48];
void main () 
{
    //Init shared memory with a big out of bounds value we can identify
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y] = 20000.0f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+16] = 20000.0f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+32] = 20000.0f;
    //Sync shared memory
    memoryBarrierShared();
    //Write the values we want to actually read back
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y] = 0.5f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+16] = 0.5f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+32] = 0.5f;
    //Sync shared memory
    memoryBarrierShared();
    //i=0,8,16 work
    //i=1-7,9-5,17 don't work (haven't bothered testing further
    const int i = 17;
    imageStore(_imageOut, ivec2(gl_GlobalInvocationID.xy), vec4(hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+i]));
    //Sync shared memory (can't hurt)
    memoryBarrierShared();
}
Run Code Online (Sandbox Code Playgroud)

使用大于8x8的发射尺寸启动此着色器会在图像的受影响区域中产生伪影.

glDispatchCompute(9, 9, 0); glMemoryBarrier(GL_SHADER_IMAGE_ACCESS_BARRIER_BIT);

我不得不断点和步帧捕捉这个,花了大约14帧 在此输入图像描述

glDispatchCompute(512/16, 512/16, 0);//Full image is 512x512 glMemoryBarrier(GL_SHADER_IMAGE_ACCESS_BARRIER_BIT);

我再次使用断点和步进帧来捕获它,当以60FPS(vsync)运行时,更频繁/同时出现伪像.

在此输入图像描述

Nic*_*las 6

memoryBarrierShared();
Run Code Online (Sandbox Code Playgroud)

不,这只会使写入对其他调用可见.如果您希望能够从其他调用的数据中读取数据,则必须确保所有写入实际发生.

这是通过barrier功能完成.这应该叫memoryBarrierShared.