小编use*_*210的帖子

CUDA如何获得网格,块,线程大小和parallalize非方矩阵计算

我是CUDA的新手,需要帮助了解一些事情.我需要帮助并行化这两个for循环.具体来说,如何设置dimBlock和dimGrid以使其运行更快.我知道这看起来像sdk中的向量添加示例,但该示例仅适用于方形矩阵,当我尝试修改我的128 x 1024矩阵的代码时,它无法正常工作.

__global__ void mAdd(float* A, float* B, float* C)
{
    for(int i = 0; i < 128; i++)
    {
        for(int i = 0; i < 1024; i++)
        {
            C[i * 1024 + j] = A[i * 1024 + j] + B[i * 1024 + j];
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

这段代码是一个更大的循环的一部分,是代码中最简单的部分,所以我决定尝试并行化thia并同时学习CUDA.我已经阅读了指南,但仍然不明白如何获得正确的号码.网格/块/线程的运行并有效地使用它们.

c++ cuda gpu visual-studio-2008

19
推荐指数
1
解决办法
2万
查看次数

标签 统计

c++ ×1

cuda ×1

gpu ×1

visual-studio-2008 ×1