小编Nik*_*a K的帖子

CUDA并行化嵌套for循环

我是CUDA的新手.我试图并行化以下代码.现在它坐在内核上但根本没有使用线程,因此很慢.我尝试使用这个答案但到目前为止无济于事.

内核应该生成前n个素数,将它们放入device_primes数组中,稍后从主机访问该数组.代码是正确的,在串行版本中工作正常,但我需要加快速度,也许使用共享内存.

//CUDA kernel code
__global__ void generatePrimes(int* device_primes, int n) 
{
//int i = blockIdx.x * blockDim.x + threadIdx.x;
//int j = blockIdx.y * blockDim.y + threadIdx.y;

int counter = 0;
int c = 0;

for (int num = 2; counter < n; num++)
{       
    for (c = 2; c <= num - 1; c++)
    { 
        if (num % c == 0) //not prime
        {
            break;
        }
    }
    if (c == num) //prime
    {
        device_primes[counter] = num; …

Run Code Online (Sandbox Code Playgroud)

c++ for-loop cuda gpu nested

Nik*_*a K

2017 05-23

6
推荐指数

1
解决办法

5374
查看次数