标签: bank-conflict

__global__ void transpose_tiled_padded(float *A, float *B, int n)
{
    int i_in = blockDim.x*blockIdx.x + threadIdx.x;
    int j_in = blockDim.y*blockIdx.y + threadIdx.y;
    int i_out = blockDim.x*blockIdx.y + threadIdx.x;
    int j_out = blockDim.y*blockIdx.x + threadIdx.y;

    extern __shared__ float tile[];

    // coalesced read of A rows to (padded) shared tile column (transpose)
    tile[threadIdx.y + threadIdx.x*(blockDim.y+1)] = A[i_in + j_in*n];
    __syncthreads();

    // coalesced write from (padded) shared tile column to B rows
    B[i_out + j_out*n] = tile[threadIdx.x + threadIdx.y*(blockDim.x+1)]; …

Run Code Online (Sandbox Code Playgroud)

cuda bank-conflict gpu-shared-memory

Moo*_*ody

2023 05-10

0
推荐指数

1
解决办法

805
查看次数

我正在编写一些 N 体模拟代码，在 CUDA 中针对 Volta 和图灵系列卡进行短程交互。我计划使用共享内存，但我不太清楚这样做时如何避免银行冲突。由于我的交互是本地的，我计划将我的粒子数据分类到本地组中，我可以将这些数据发送到每个 SM 的共享内存（还没有担心粒子的邻居正在从另一个 SM 工作。为了变得更好性能（避免库冲突），仅每个线程从/向共享内存的不同地址读取/写入就足够了，但每个线程可以无序访问该内存而不会受到惩罚？

我看到的所有信息似乎只提到内存被合并以从全局内存到共享内存的复制，但我没有看到任何关于扭曲（或整个 SM）中的线程是否关心共享内存中的合并。

cuda bank-conflict gpu-shared-memory

Ian*_*ham

lucky-day

-1
推荐指数

1
解决办法

442
查看次数