为什么矩阵逆计算中的中间值在 C# 和 CUDA C++ 之间略有不同？

Question

为什么矩阵逆计算中的中间值在 C# 和 CUDA C++ 之间略有不同？

Abd*_*tef -4 c# c++ precision cuda matrix-inverse

我编写了两个程序来使用高斯消元计算矩阵的逆，第一个程序是在 C# 中，第二个是在 CUDA C++ 中。这两个程序遵循完全相同的程序并给出相同的最终结果。但是，当我检查中间步骤中的值时，我发现值略有不同，小于 1e-5 的相对误差。

这是两个程序的每个代码的一部分。

C＃

int i, j, i1, n, y, z;
double[,] M = new double[n, n];
double[,] inv = new double[n, n];
for (i = 0; i < n; i++)
    inv[i, i] = 1;
for (i = 0; i < n; i++)
{
    for (j = i + 1; j < n; j++)
        M[i, j] /= M[i, i];
    for (j = 0; j < n; j++)
        inv[i, j] /= M[i, i];
    if (i != n - 1)
    {
        for (i1 = i + 1; i1 < n; i1++)
            if (Math.Abs(M[i1, i]) >= 1e-9)
            {
                for (j = i + 1; j < n; j++)
                    M[i1, j] -= M[i1, i] * M[i, j];
                for (j = 0; j < n; j++)
                    inv[i1, j] -= M[i1, i] * inv[i, j];
            }
        f = new StreamWriter("CPU.csv");
        for (y = 0; y < n; y++)
        {
            for (z = 0; z < n; z++)
                f.Write(M[y, z].ToString() + ",");
            for (z = 0; z < n; z++)
                f.Write(ans[y, z].ToString() + ",");
            f.WriteLine();
        }
        f.Close();
    }
}
for (i = n - 1; i > 0; i--)
{
    for (i1 = 0; i1 < i; i1++)
        if (Math.Abs(M[i1, i]) >= 1e-9)
            for (j = 0; j < n; j++)
                inv[i1, j] -= M[i1, i] * inv[i, j];
}

Run Code Online (Sandbox Code Playgroud)

CUDA C++

int i, j;
double v;
double* d_A, * d_B, * d_v, * Z;
size = n * n * sizeof(double);
cudaMalloc(&d_A, size);
cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);
cudaMalloc(&d_B, size);
cudaMalloc(&d_v, sizeof(double));
Z = new double[n * n];
Unity <<<1, n>>> (d_B, n);
cudaDeviceSynchronize();
for (i = 0; i < n; i++)
{
    GetVal <<<1, 1>>> (d_A, i * (n + 1), d_v);
    cudaMemcpy(&v, d_v, sizeof(double), cudaMemcpyDeviceToHost);
    if (i != n - 1)
        DivideRow <<<1, n - i - 1>>> (d_A, i * (n + 1) + 1, n - i - 1, v);
    DivideRow <<<1, n>>> (d_B, i * n, n, v);
    cudaDeviceSynchronize();
    cudaMemcpy(Z, d_A, size, cudaMemcpyDeviceToHost);
    cudaMemcpy(B, d_B, size, cudaMemcpyDeviceToHost);
    if (i != n - 1)
    {
        dim3 GridA(1, 1);
        dim3 BlockA(n - i - 1, n - i - 1);
        dim3 GridB(1, 1);
        dim3 BlockB(n - i - 1, n);
        ModifyRow <<<GridA, BlockA>>> (d_A, i, i, i + 1, n - i - 1, n - i - 1);
        ModifyRow <<<GridB, BlockB>>> (d_A, n, i, i, d_B, i + 1, 0, n - i - 1, n);
        cudaDeviceSynchronize();
        cudaMemcpy(Z, d_A, size, cudaMemcpyDeviceToHost);
        cudaMemcpy(B, d_B, size, cudaMemcpyDeviceToHost);
        myfile.open("GPU.csv");
        for (x = 0; x < n; x++)
        {
            for (y = 0; y < n; y++)
                myfile << Z[x * n + y] << ",";
            for (y = 0; y < n; y++)
                myfile << B[x * n + y] << ",";
            myfile << "\n";
        }
        myfile.close();
    }
}
cudaFree(d_v);
for (i = n - 1; i > 0; i--)
{
    dim3 GridB(1, 1);
    dim3 BlockB(i, n);
    ModifyRow <<<GridB, BlockB>>> (d_A, n, i, i, d_B, 0, 0, i, n);
    cudaDeviceSynchronize();
    cudaMemcpy(Z, d_A, size, cudaMemcpyDeviceToHost);
    cudaMemcpy(B, d_B, size, cudaMemcpyDeviceToHost);
}
cudaMemcpy(B, d_B, size, cudaMemcpyDeviceToHost);
cudaFree(d_A);
cudaFree(d_B);

Run Code Online (Sandbox Code Playgroud)

我比较了CPU.csv和GPU.csv文件中的值，并发现了这些差异。

这可能是什么原因？CUDA C++ 中的计算精度是否低于 C#？

Answer 1

Pau*_*ers 6

来自NVIDIA 文档（大约向下的 2/3）：

[四舍五入]的结果是，对于给定的输入，不能期望不同的数学库计算出完全相同的结果。这也适用于 GPU 编程。为 GPU 编译的函数将使用 NVIDIA CUDA 数学库实现，而为 CPU 编译的函数将使用主机编译器数学库实现（例如，Linux 上的 glibc）。由于这些实现是独立的，并且都不能保证正确舍入，因此结果通常会略有不同。

告诉你你需要知道的一切，真的。

对于最终结果，您将使用 C# 编写两个数据集。对于中间结果，您将使用 C# 编写一组数据集，并使用 C++ 编写一组数据集。 (6认同)
抱歉，我对此并不熟悉，但我建议您找到一种方法来输出尽可能多的精度数字。在 C++ 中，您可以使用 [`output_stream << std::set precision`](https://en.cppreference.com/w/cpp/io/manip/set precision) 来做到这一点。 (2认同)

归档时间：	5 年，3 月前
查看次数：	92 次
最近记录：	4 年，11 月前