CUDA在设备上静态分配数据

Noc*_*nal 1 c++ parallel-processing cuda nvcc

我一直在尝试分配一个可以被每个内核函数访问的变量.我的尝试是下面附带的代码,但它不会编译,因为内核无法访问dArray.在C++中,您可以将变量放在顶部,或者在整个程序中声明要在每个范围内访问的静态.

__global__ void StoreThreadNumber()
{
    dArray[threadIdx.x] = threadIdx.x;
}

int main( int argc, char** argv)
{
    unsigned __int8 Array[16] = { 0 };
    unsigned __int8 dArray[16];

    for( __int8 Position = 0; Position < 16; Position++)
        cout << Array[Position] << " ";
    cout << endl;

    cudaMalloc((void**) dArray, 16*sizeof(__int8));
    cudaMemcpy( dArray, Array, 16*sizeof(__int8), cudaMemcpyHostToDevice);

    StoreThreadNumber<<<1, 16>>>();

    cudaMemcpy( Array, dArray, 16*sizeof(__int8), cudaMemcpyDeviceToHost);

    for( __int8 Position = 0; Position < 16; Position++)
        cout << Array[Position] << " ";
    cout << endl;

    cudaFree(dArray);
}
Run Code Online (Sandbox Code Playgroud)

har*_*ism 5

您可以在CUDA中使用类型__device__或的全局变量__constant__.因此,例如,如果使用__constant__指针变量初始化设备指针的地址,cudaMemcpyToSymbol()则可以通过__constant__变量访问该指针:

__constant__ int* dArrayPtr;

__global__ void StoreThreadNumber()
{
    dArrayPtr[threadIdx.x] = threadIdx.x;
}
Run Code Online (Sandbox Code Playgroud)

在运行内核之前,请确保从主机代码中正确初始化dArrayPtr.