我有一个M*N主机内存矩阵,在复制到设备内存时,我需要将它转换成N*M矩阵.是否有任何cuda(cuBLAS ...)API这样做?我正在使用CUDA 4.谢谢!
M*N
N*M
cuda cublas
cublas ×1
cuda ×1