Mar*_*sen 10 c cuda blas cublas
我正在做一些计算,并对不同BLAS实现的力量和弱点进行一些分析.但是我遇到了一个问题.
我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题.
使用列主格式的cuBlas实现,因为这不是我最终需要的,我很好奇是否有一种方法可以让BLAS做矩阵转置?
tal*_*ies 11
BLAS没有内置的矩阵转置程序.CUDA SDK包含一个矩阵转置示例和一篇论文,讨论了执行转置的最佳策略.您最好的策略可能是使用CUBLAS的行主要输入和调用的转置输入版本,然后在列major中执行中间计算,最后使用SDK转置内核执行转置操作.
编辑添加CUBLAS在CUBLAS第5版中添加了一个转置例程geam,它可以在GPU内存中执行矩阵转置,应该被认为是您正在使用的任何架构的最佳选择.
geam
归档时间:
14 年,2 月 前
查看次数:
8653 次
最近记录:
10 年,9 月 前