小编use*_*852的帖子

使用不规则的内存访问优化CUDA内核

我有以下CUDA内核,它似乎非常"难以"优化:

__global__ void DataLayoutTransformKernel(cuDoubleComplex* d_origx, cuDoubleComplex* d_origx_remap, int n, int filter_size, int ai )
{
    for(int idx = blockIdx.x * blockDim.x + threadIdx.x; idx < filter_size; idx+=blockDim.x * gridDim.x)
    {
        int index = (idx * ai) & (n-1);
        d_origx_remap[idx] = d_origx[index];
    }
}

//Parameters were defined before
int permute[loops] = {29165143,3831769,17603771,9301169,32350975, ...}
int n = 33554432;
int filter_size = 1783157;

for(int i=0; i<loops; i++)
{
    DataLayoutTransformKernel<<<dimGrid, dimBlock, 0, stream[i]>>>((cuDoubleComplex*) d_origx,(cuDoubleComplex*)d_origx_remap+i*filter_size, n, filter_size, permute[i]);

}

Run Code Online (Sandbox Code Playgroud)

内核的目的是重新排序d_origx[]从不规则到常规(d_origx_remap)的数据布局.内核使用不同的访问步幅(ai …

c c++ cuda gpgpu nvidia

use*_*852

2013 12-12

3
推荐指数

1
解决办法

533
查看次数