混合 Thrust 和 cuBLAS 会产生意外的输出结果

Question

混合 Thrust 和 cuBLAS 会产生意外的输出结果

我喜欢推力库，尤其是它如何很好地隐藏了 cudaMalloc、cudaFree 等的复杂性。

我想对矩阵的所有列求和。所以我使用了 cuBlas 的“cublasSgemv”并将我的矩阵乘以一个向量。这是我的代码：

void sEarColSum(std::vector<float>& inMatrix, int colSize)
{
    cublasHandle_t handle; // CUBLAS context
    float al = 1.0f; // al =1
    float bet = 1.0f; // bet =1
    int rowSize = inMatrix.size() / colSize;

    float *devOutputPtr = thrust::raw_pointer_cast(thrust::device_malloc<float>(colSize));

    thrust::device_vector<float> deviceT2DMatrix(inMatrix.begin(), inMatrix.end());
    float* device2DMatrixPtr = thrust::raw_pointer_cast(deviceT2DMatrix.data());

    thrust::device_vector<float> deviceVector(rowSize, 1.0f);
    float* deviceVecPtr = thrust::raw_pointer_cast(deviceVector.data());

    cublasCreate(&handle);
    cublasSgemv(handle, CUBLAS_OP_N, colSize, rowSize, &al, device2DMatrixPtr, colSize, deviceVecPtr, 1, &bet, devOutputPtr, 1);

    std::vector<float> outputVec(colSize);
    cudaMemcpy(outputVec.data(), devOutputPtr, outputVec.size() * sizeof(float), cudaMemcpyDeviceToHost);

    for (auto elem : outputVec)
        std::cout << elem << std::endl;
}



int main(void)
{
    std::vector < float > temp(100, 1); // A vector of 100 elements each 1 
    sEarColSum( temp, 10 ); // Means my vector will have 10 columns and 100/10 = 10 rows  
  //so I expect a output vector with 10 elements. Which all elements have the value of 10. 
}

Run Code Online (Sandbox Code Playgroud)

不幸的是结果只是垃圾。我期待一个由十个元素组成的向量，每个值都是十。但我得到的是：

30
30
-2.80392e+036
30
30
-4.95176e+029
30
6.64319e+016
-3.72391e+037
30

Run Code Online (Sandbox Code Playgroud)

我是否遗漏了什么，我的代码哪里出了问题？
其次是否可以使用调试器检查例如“float* device2DMatrixPtr”？Visual Studio 显示其地址，但由于它位于 GPU 内存中，因此不会显示地址内的数据。

Answer 1

Rob*_*lla 5

cublas 函数gemv执行矩阵向量乘积：

y = alpha*A*x + beta*y

Run Code Online (Sandbox Code Playgroud)

上面的等式中的由您分配的y表示，如下所示：devOutputPtr

float *devOutputPtr = thrust::raw_pointer_cast(thrust::device_malloc<float>(colSize));

Run Code Online (Sandbox Code Playgroud)

普通的推力分配如下：

thrust::device_vector<float> my_vec...

Run Code Online (Sandbox Code Playgroud)

会分配并初始化存储，但thrust::device_malloc只分配存储，不初始化它。

因此你的y“向量”最初包含垃圾。如果你把你的值设置beta为零，那就没关系了。但由于您beta设置为 1，因此该未初始化区域的内容将添加到您的结果向量中。

如果你设置

float bet = 0.0f;

Run Code Online (Sandbox Code Playgroud)

我认为你会得到预期的结果（我确实如此，有了这个改变。）

关于这个问题：

其次是否可以使用调试器检查例如“float* device2DMatrixPtr”？

您可以deviceT2DMatrix使用例如printf或打印出值std::cout。Thrust 将为您“在后台”复制设备->主机的值，以方便实现这一点。如果要访问调试器中的设备副本，请使用 Windows 上的 nsight VSE 或 Linux 上的 nsight EE 或 cuda-gdb 的设备调试功能

归档时间：	10 年，6 月前
查看次数：	667 次
最近记录：	10 年，6 月前