我正在使用 pyCUDA 进行 CUDA 编程。我需要在内核函数中使用随机数。CURAND 库在其中不起作用(pyCUDA)。由于GPU有很多工作要做,在CPU内部生成随机数然后转移到GPU是行不通的,反而会消解使用GPU的动机。
补充问题:
尽管您在问题中断言,PyCUDA 对 CUrand 有相当全面的支持。GPUArray 模块有一个直接接口来使用主机端 API 来填充设备内存(注意在这种情况下随机生成器在 GPU 上运行)。
在 PyCUDA 内核代码中使用来自 CUrand 的设备端 API 也是完全可能的。在这个用例中,最棘手的部分是为线程生成器状态分配内存。有三种选择——在代码中静态分配、动态使用主机内存端分配和动态使用设备端内存分配。以下(经过非常轻松测试的)示例说明了后者,正如您在问题中所问的那样:
import numpy as np
import pycuda.autoinit
from pycuda.compiler import SourceModule
from pycuda import gpuarray
code = """
#include <curand_kernel.h>
const int nstates = %(NGENERATORS)s;
__device__ curandState_t* states[nstates];
__global__ void initkernel(int seed)
{
int tidx = threadIdx.x + blockIdx.x * blockDim.x;
if (tidx < nstates) {
curandState_t* s = new curandState_t;
if (s != 0) {
curand_init(seed, tidx, 0, s);
}
states[tidx] = s;
}
}
__global__ void randfillkernel(float *values, int N)
{
int tidx = threadIdx.x + blockIdx.x * blockDim.x;
if (tidx < nstates) {
curandState_t s = *states[tidx];
for(int i=tidx; i < N; i += blockDim.x * gridDim.x) {
values[i] = curand_uniform(&s);
}
*states[tidx] = s;
}
}
"""
N = 1024
mod = SourceModule(code % { "NGENERATORS" : N }, no_extern_c=True, arch="sm_52")
init_func = mod.get_function("_Z10initkerneli")
fill_func = mod.get_function("_Z14randfillkernelPfi")
seed = np.int32(123456789)
nvalues = 10 * N
init_func(seed, block=(N,1,1), grid=(1,1,1))
gdata = gpuarray.zeros(nvalues, dtype=np.float32)
fill_func(gdata, np.int32(nvalues), block=(N,1,1), grid=(1,1,1))
Run Code Online (Sandbox Code Playgroud)
这里有一个初始化内核,它需要运行一次来为生成器状态分配内存并用种子初始化它们,然后是一个使用这些状态的内核。如果要运行大量线程,则需要注意 malloc 堆大小限制,但可以通过 PyCUDA 驱动程序 API 接口操作这些限制。