使用unique_ptr和cudaMalloc

Question

使用unique_ptr和cudaMalloc

cr_*_*ave 4 pointers cuda unique-ptr c++11

我一直在考虑在CUDA中将std :: unique_ptr与设备指针一起使用。我想知道的是，当前的c ++ 11 unique_ptr是否可以与cudaMalloc结合使用。我知道它可以与普通的malloc 一起使用（是否可以将C ++智能指针与C的malloc一起使用？），但是cudaMalloc不会在函数的return语句中返回该指针。而是，它返回一个错误代码。指针在引用中返回。

这篇博客文章推荐以下技术：

auto deleter=[&](float* ptr){ cudaFree(ptr); };
std::unique_ptr<float[], decltype(deleter)> d_in(new float[size], deleter);
cudaMalloc((void **) &d_in, size * sizeof(float));

Run Code Online (Sandbox Code Playgroud)

问题：但是，我担心这会创建永不删除（即d_in(new float[size], deleter);）的主机内存吗？除非new float[size]实际上不会生成主机内存或被覆盖？如果上述方法实际上不起作用，可以定义我自己的cudaMalloc包装器吗？-将指针传递给unique_ptr？

就像是：

void* myCudaMalloc(size_t mySize){ 
    void * p; 
    checkCUDAerrorMacro(cudaMalloc((void**) &p, size);) 
    return p;
}

...

auto deleter=[](float* ptr){ cudaFree(ptr); };
std::unique_ptr<float[], decltype(deleter)> d_in(myCudaMalloc(size_t mySize), deleter);

Run Code Online (Sandbox Code Playgroud)

Answer 1

cr_*_*ave 7

经过一些工作后，我想出了如何测试它的3个版本-tl; dr确实泄漏了博客文章的版本（v1），但是可以对其进行调整，以使其不会（v2）和得到改进（v3）：

常用代码：

template <typename Deleter>
using unique_p = std::unique_ptr<float[], Deleter>;

constexpr int length = 20;

Run Code Online (Sandbox Code Playgroud)

v1 ：（建议在博客文章中使用）

void version1(){
    auto deleter = [](float* ptr) { cudaFree(ptr); std::cout<<"\nDeleted1\n"; };
    unique_p<decltype(deleter)> d_in(new float[length],deleter);
    cudaMalloc((void **) &d_in, length * sizeof(float));

    ...
}

Run Code Online (Sandbox Code Playgroud)

v2 ：（与上述类似，但使用nullptr初始化d_in）

void version2(){
    auto deleter = [](float* ptr) { cudaFree(ptr); std::cout<<"\nDeleted2\n"; };
    unique_p<decltype(deleter)> d_in(nullptr,deleter);
    cudaMalloc((void **) &d_in, length * sizeof(float));

    ...
}

Run Code Online (Sandbox Code Playgroud)

v3 ：（使用cudaMalloc初始化的d_in“采用”指针）

void version3(){
    auto  myCudaMalloc = [](size_t mySize) { void* ptr; cudaMalloc((void**)&ptr, mySize); return ptr; };
    auto deleter = [](float* ptr) { cudaFree(ptr); std::cout<<"\nDeleted3\n"; };
    unique_p<decltype(deleter)> d_in((float*)myCudaMalloc(length*sizeof(float)),deleter);

    ...
}

Run Code Online (Sandbox Code Playgroud)

所有3个都创建正确的设备指针。但是，版本1肯定会泄漏主机内存（使用valgrind并在禁止cuda警告的情况下进行了测试：Valgrind和CUDA：报告的泄漏是否真实？）。v2和v3都不会泄漏主机内存。cuda-memcheck还确认任何版本都没有设备端内存泄漏。

在版本2和3之间，我更喜欢版本3，因为它可以更清楚地表明unique_ptr拥有指针，并且它遵循unique_ptr构造函数new和的成语malloc。您还只需要定义一次构造函数/ lambda，然后就可以一次又一次地使用它，因此代码行更少。

========================

完整的测试代码（与nvcc -std = c ++ 14编译）：

#include <cuda_runtime.h>
#include <memory>
#include <iostream>

template <typename Deleter>
using unique_p = std::unique_ptr<float[], Deleter>;

__global__ void printArray(float * d_in, int num){
    for(int i = 0; i < num; i++){ printf("%f\t",d_in[i]); }
    printf("\n");

}

struct myDeleter{
    void operator()(float* ptr){ cudaFree(ptr); std::cout<<"\nDeleted\n"; } 
};

constexpr int length = 20;

void version1(){
    auto deleter = [](float* ptr) { cudaFree(ptr); std::cout<<"\nDeleted1\n"; };
    unique_p<decltype(deleter)> d_in(new float[length],deleter);
    cudaMalloc((void **) &d_in, length * sizeof(float));

    std::unique_ptr<float[]> h_out(new float[length]);

    for(int i = 0; i < length; i++){ h_out[i] = i; }

    cudaMemcpy(d_in.get(), h_out.get(),length*sizeof(float),cudaMemcpyHostToDevice);


    printArray<<<1,1>>>(d_in.get(),length);
}

void version2(){
    auto deleter = [](float* ptr) { cudaFree(ptr); std::cout<<"\nDeleted2\n"; };
    unique_p<decltype(deleter)> d_in(nullptr,deleter);
    cudaMalloc((void **) &d_in, length * sizeof(float));

    std::unique_ptr<float[]> h_out(new float[length]);

    for(int i = 0; i < length; i++){ h_out[i] = i; }

    cudaMemcpy(d_in.get(), h_out.get(),length*sizeof(float),cudaMemcpyHostToDevice);


    printArray<<<1,1>>>(d_in.get(),length);
}


void version3(){
    auto  myCudaMalloc = [](size_t mySize) { void* ptr; cudaMalloc((void**)&ptr, mySize); return ptr; };
    auto deleter = [](float* ptr) { cudaFree(ptr); std::cout<<"\nDeleted3\n"; };
    unique_p<decltype(deleter)> d_in((float*)myCudaMalloc(length*sizeof(float)),deleter);
    //unique_p<myDeleter> d_in((float*)myCudaMalloc(20*sizeof(float)));

    std::unique_ptr<float[]> h_out(new float[length]);
    for(int i = 0; i < length; i++){ h_out[i] = i; }

    cudaMemcpy(d_in.get(), h_out.get(),length*sizeof(float),cudaMemcpyHostToDevice);

    printArray<<<1,1>>>(d_in.get(),length);
}

int main(){

    version1();
    version2();
    version3();

    cudaDeviceReset();
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	1455 次
最近记录：	8 年前