小编Ano*_*acx的帖子

for(x=0; x<DSIZE; x+=N*2){

 gpuErrchk(cudaMemcpyAsync(array_d0, array_h+x, N*sizeof(char), cudaMemcpyHostToDevice, stream0));
 gpuErrchk(cudaMemcpyAsync(array_d1, array_h+x+N, N*sizeof(char), cudaMemcpyHostToDevice, stream1));


gpuErrchk(cudaMemcpyAsync(data_d0, data_h, wrap->size*sizeof(int), cudaMemcpyHostToDevice, stream0));
gpuErrchk(cudaMemcpyAsync(data_d1, data_h, wrap->size*sizeof(int), cudaMemcpyHostToDevice, stream1));

searchGPUModified<<<N/128,128,0,stream0>>>(data_d0, array_d0, out_d0 );
searchGPUModified<<<N/128,128,0,stream1>>>(data_d1, array_d1, out_d1);

gpuErrchk(cudaMemcpyAsync(out_h+x, out_d0 , N * sizeof(int), cudaMemcpyDeviceToHost, stream0));
gpuErrchk(cudaMemcpyAsync(out_h+x+N, out_d1 ,N *  sizeof(int), cudaMemcpyDeviceToHost, stream1));

}

Run Code Online (Sandbox Code Playgroud)

但我找不到流和统一内存的例子,使用相同的技术,将数据块发送到GPU.我想知道是否有办法做到这一点？

cuda nvidia

Ano*_*acx

lucky-day

3
推荐指数

1
解决办法

2073
查看次数

如何使用CUDA传递Tree结构

我创建了一个简单的C树,我打算在GPU上移植它.

我树的结构如下:

typedef struct node{

    short int final; // 2 byte
    char number; // 1 byte 
    struct node *child[2]; // 8 * NUM_SIZE byte

}node;

Run Code Online (Sandbox Code Playgroud)

我现在想知道如何在CUDA上移植代码,或者如何在CUDA中使用结构,我应该在设备上创建树吗？或者在主机上创建树并将其传递给设备？

在设备上创建树似乎是我的最佳答案,虽然我不确定如何在设备上使用结构.

谢谢

tree cuda nvidia

Ano*_*acx

2018 02-01

2
推荐指数

1
解决办法

1821
查看次数

Cuda随机数生成

我想知道在0到49k之间生成一个伪随机数的最佳方法是什么,对于每个线程来说,通过使用curand或其他东西是相同的.

我更喜欢在内核中生成随机数,因为我必须在那时生成一个但大约10k次.

我可以使用介于0.0和1.0之间的浮点数,但我不知道如何使我的PRN可用于所有线程,因为大多数帖子和示例显示如何为每个线程使用不同的PRN.

谢谢

random cuda nvidia thrust

Ano*_*acx

lucky-day

0
推荐指数

1
解决办法

4638
查看次数

标签统计

cuda ×3

nvidia ×3

algorithm ×1

c ×1

data-structures ×1

dawg ×1

dfa ×1

nfa ×1

random ×1

regex ×1

thrust ×1

tree ×1

构造有向无环字图(DAWG)的最佳方法

NFA DFA和Regex转换表

C语言中的统一内存和流

如何使用CUDA传递Tree结构

Cuda随机数生成

标签 统计

小编Ano_acx的帖子

标签统计