内核调用示例前的 CUDA 全局数组声明和初始化

Question

内核调用示例前的 CUDA 全局数组声明和初始化

Hay*_*yan 3 cuda declaration shared-memory

我需要一些有关 Cuda GLOBAL 内存的帮助。在我的项目中，我必须声明全局数组以避免在每次内核调用时发送这个数组。

编辑：

我的应用程序可以调用内核超过 1,000 次，每次调用时我都会向他发送一个大小超过 [1000 X 1000] 的数组，所以我认为这需要更多时间，这就是我的应用程序运行缓慢的原因。所以我需要为 GPU 声明全局数组，所以我的问题是

1如何声明全局数组

2如何在内核调用之前从 CPU 初始化全局数组

提前致谢

Answer 1

Rob*_*lla 5

您编辑的问题令人困惑，因为您说要向内核发送大小为 1000 x 1000 的数组，但您想知道如何使用全局数组来执行此操作。我知道将这么多数据发送到内核的唯一方法是使用全局数组，因此您可能已经使用全局内存中的数组执行此操作。

尽管如此，至少有两种方法可以在全局内存中创建和初始化数组：

1.statically，使用__device__和cudaMemcpyToSymbol，例如：

 #define SIZE 100
 __device__ int A[SIZE];
 ...
 int main(){
   int myA[SIZE];
   for (int i=0; i< SIZE; i++) myA[i] = 5;
   cudaMemcpyToSymbol(A, myA, SIZE*sizeof(int));
   ...
   (kernel calls, etc.)
 }

Run Code Online (Sandbox Code Playgroud)

（设备变量参考，cudaMemcpyToSymbol 参考）

2.动态地，使用cudaMalloc和cudaMemcpy：

 #define SIZE 100
 ...
 int main(){
   int myA[SIZE];
   int *A;
   for (int i=0; i< SIZE; i++) myA[i] = 5;
   cudaMalloc((void **)&A, SIZE*sizeof(int));
   cudaMemcpy(A, myA, SIZE*sizeof(int), cudaMemcpyHostToDevice);
   ...
   (kernel calls, etc.)
 }

Run Code Online (Sandbox Code Playgroud)

( cudaMalloc 参考, cudaMemcpy 参考)

为清楚起见，我省略了您应该对所有 cuda 调用和内核调用进行的错误检查。

归档时间：	12 年，9 月前
查看次数：	5307 次
最近记录：	12 年，9 月前