在没有内存移动的情况下交换 CUDA Thrust 设备向量

Question

在没有内存移动的情况下交换 CUDA Thrust 设备向量

Jac*_*ern 3 cuda thrust

如果我有两个cudaMalloced 数组，我可以通过简单地交换相关指针来交换它们而无需内存移动。

如果我有两个 CUDA Thrust device_vectors，比如说d_a和d_b，我可以使用第三个临时向量来交换它们，比如说d_c，但这将需要内存移动。

我的问题是：有没有办法在不移动内存的情况下交换 CUDA Thrust device_vectors？

Answer 1

Jac*_*ern 5

似乎device_vector.swap()避免了记忆运动。

确实，请考虑以下代码：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

#include <thrust\device_vector.h>

void printDeviceVector(thrust::device_vector<int> &d_a) {

    for (int k = 0; k < d_a.size(); k++) {

        int temp = d_a[k];
        printf("%i\n", temp);

    }

}

int main()
{
    const int N = 10;

    thrust::device_vector<int> d_a(N, 1);
    thrust::device_vector<int> d_b(N, 2);

    // --- Original
    printf("Original device vector d_a\n");
    printDeviceVector(d_a);
    printf("Original device vector d_b\n");
    printDeviceVector(d_b);

    d_b.swap(d_a);

    // --- Original
    printf("Final device vector d_a\n");
    printDeviceVector(d_a);
    printf("Final device vector d_b\n");
    printDeviceVector(d_b);

    d_a.clear();
    thrust::device_vector<int>().swap(d_a); 
    d_b.clear();
    thrust::device_vector<int>().swap(d_b);

    cudaDeviceReset();

    return 0;
}

Run Code Online (Sandbox Code Playgroud)

使用

    d_b.swap(d_a);

Run Code Online (Sandbox Code Playgroud)

如果我们对其进行分析，我们会在时间线中看不到设备到设备的内存移动：

如果，在另一边，我们d_b.swap(d_a)改为

d_b = d_a;

Run Code Online (Sandbox Code Playgroud)

然后设备到设备的移动出现在时间线中：

最后，时机明显有利于d_b.swap(d_a)，而不是d_b = d_a。对于N = 33554432，时间为

d_b.swap(d_a)     0.001152ms
d_b = d_a         3.181824ms

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，3 月前
查看次数：	770 次
最近记录：	8 年，3 月前