使用CUDA缩放矩阵的行

Question

使用CUDA缩放矩阵的行

在GPU上的一些计算中,我需要缩放矩阵中的行,以便给定行中的所有元素总和为1.

| a_1,1 a_1,2 ... a_1,N |    | alpha₁*a_1,1 alpha₁*a_1,2 ... alpha₁*a_1,N |
| a_2,1 a_2,2 ... a_2,N | => | alpha₂*a_2,1 alpha₂*a_2,2 ... alpha₂*a_2,N |
| .            .   |    | .                                .    |
| a_N,1 a_N,2 ... a_N,N |    | alpha_N*a_N,1 alpha_N*a_N,2 ... alpha_N*a_N,N |

哪里

alpha_i =  1.0/(a_i,1 + a_i,2 + ... + a_i,N)

我需要alpha's 的向量,以及缩放的矩阵,我想在尽可能少的blas调用中执行此操作.该代码将在nvidia CUDA硬件上运行.有谁知道有任何聪明的方法来做到这一点？

Answer 1

小智 6

Cublas 5.0引入了类似blas的例程,称为cublas(Type)dgmm,它是矩阵乘以对角矩阵(由向量表示)的乘法.

左侧选项(将缩放行)或右侧选项将缩放列.

有关详细信息,请参阅CUBLAS 5.0文档.

所以在你的问题中,你需要创建一个包含GPU上所有alpha的向量,并使用带左选项的cublasdgmm.

归档时间：	14 年，1 月前
查看次数：	2035 次
最近记录：	10 年，10 月前