相关疑难解决方法(0)

如何检查矩阵乘法的进度？

我现在只需要显示矩阵乘法的中间进度.

for(unsigned int col=0; col<mtxSize; col++) {
         unsigned tmp = 0;
         for(unsigned int row=0; row<mtxSize; row++) {
             for(unsigned int idx=0; idx<mtxSize; idx++) {
                 tmp += h_A[col*mtxSize+idx] * h_B[idx*mtxSize+row];
            }
             h_Rs[col*mtxSize+row] = tmp;
             tmp = 0;
             int rate_tmp = (col*mtxSize + (row+1))*100;
             // Maybe like this...
             fprintf(stdout, "Progress : %d.%d %%\r", rate_tmp/actMtxSize, rate_tmp%actMtxSize);
             fflush(stdout);
         }
}

Run Code Online (Sandbox Code Playgroud)

在主机代码(使用CPU)的情况下,它很容易,因为它顺序处理,所以我们可以很容易地检查.

但是在GPU并行处理的情况下,我该怎么办？

内核运行后,在完成内核执行之前不会返回.

所以我无法在内核执行期间检查中间数据.

我想我需要使用异步内核调用,但我不太清楚.

即使使用了异步内核调用,要将所有数据看到处理器上的几个块,我是否必须编写atomicAdd()(换句话说,全局内存访问)函数,其中包括一些开销？

给我一些建议或提示.

我想知道CUDA的情况.

cuda

Umb*_*lla

2013 12-04