我正在做一些计算,并对不同BLAS实现的力量和弱点进行一些分析.但是我遇到了一个问题.
我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题.
使用列主格式的cuBlas实现,因为这不是我最终需要的,我很好奇是否有一种方法可以让BLAS做矩阵转置?
假设我有一个尺寸A*B在GPU上的矩阵,其中B(列数)是假定C样式的前导维度.在CUDA(或Cublas)中是否有任何方法将此矩阵转换为FORTRAN样式,其中A(行数)成为主要维度?
如果它可以在host->device传输期间进行转置同时保持原始数据不变,那就更好了.