相关疑难解决方法(0)

CUDA设备到设备转移昂贵

我编写了一些代码来尝试交换2D矩阵的象限以用于FFT,它存储在一个平面阵列中.

    int leftover = W-dcW;

    T *temp;
    T *topHalf;
cudaMalloc((void **)&temp, dcW * sizeof(T));

    //swap every row, left and right
    for(int i = 0; i < H; i++)
    {
        cudaMemcpy(temp, &data[i*W], dcW*sizeof(T),cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W],&data[i*W+dcW], leftover*sizeof(T), cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W+leftover], temp, dcW*sizeof(T), cudaMemcpyDeviceToDevice); 
    }

cudaMalloc((void **)&topHalf, dcH*W* sizeof(T));
    leftover = H-dcH;
    cudaMemcpy(topHalf, data, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(data, &data[dcH*W], leftover*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(&data[leftover*W], topHalf, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
Run Code Online (Sandbox Code Playgroud)

请注意,此代码需要设备指针,并且DeviceToDevice会进行传输.

为什么这似乎运行得这么慢?这可以以某种方式进行优化吗?与使用常规memcpy的主机上的相同操作相比,我计时这个时间慢了大约2倍.

有任何想法吗?

c++ cuda fft

5
推荐指数
1
解决办法
1万
查看次数

CUDA - 通过PCI-E传输速度有多慢?

如果我将一个字节从CUDA内核传输到PCI-E到主机(零拷贝存储器),那么与传输200兆字节的东西相比,它有多慢?

我想知道的是,因为我知道通过PCI-E传输CUDA内核的速度很慢,是:如果我只传输一个字节或大量数据,它会改变什么吗?或者也许由于内存传输是在"批量"中执行的,因此传输单个字节非常昂贵且无法传输200 MB?

cuda nvidia pci-e

4
推荐指数
1
解决办法
1314
查看次数

标签 统计

cuda ×2

c++ ×1

fft ×1

nvidia ×1

pci-e ×1