CUDA 共享内存效率达到 50%？

Question

CUDA 共享内存效率达到 50%？

Moo*_*ody 0 cuda bank-conflict gpu-shared-memory

我有以下代码，它使用共享内存执行平铺矩阵转置以提高性能。共享内存用 1 列填充，以避免 32x32 线程块的存储体冲突。

__global__ void transpose_tiled_padded(float *A, float *B, int n)
{
    int i_in = blockDim.x*blockIdx.x + threadIdx.x;
    int j_in = blockDim.y*blockIdx.y + threadIdx.y;
    int i_out = blockDim.x*blockIdx.y + threadIdx.x;
    int j_out = blockDim.y*blockIdx.x + threadIdx.y;

    extern __shared__ float tile[];

    // coalesced read of A rows to (padded) shared tile column (transpose)
    tile[threadIdx.y + threadIdx.x*(blockDim.y+1)] = A[i_in + j_in*n];
    __syncthreads();

    // coalesced write from (padded) shared tile column to B rows
    B[i_out + j_out*n] = tile[threadIdx.x + threadIdx.y*(blockDim.x+1)];
}

Run Code Online (Sandbox Code Playgroud)

运行此代码，正如我所期望的那样，我在 NVIDIA 视觉分析器中获得了 100% 的共享内存效率。但是，当我使用 16x16 线程块运行它时，我只能获得 50% 的效率。这是为什么？据我所知，扭曲中没有线程从具有此布局的同一存储体中读取。还是我错了？

Answer 1

Rob*_*lla 6

是的，你错了。

考虑对 16x16 块中的 warp 0 进行这种（读取）访问：

tile[threadIdx.x + threadIdx.y*(blockDim.x+1)];
     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
                     "index"

Run Code Online (Sandbox Code Playgroud)

以下是经纱中每个线程的相关计算：

warp lane:    0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 23 25 26 27 28 29 30 31
threadIdx.x:  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15
threadIdx.y:  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
"index":      0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
bank:         0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31  0

Run Code Online (Sandbox Code Playgroud)

所以我们看到，对于这个 warp，第一个和最后一个线程都从存储体 0 读取。这会导致 2 路存储体冲突、2 路序列化和 50% 的效率。

归档时间：	7 年，5 月前
查看次数：	805 次
最近记录：	2 年，6 月前