我需要在GPU上使用CUDA实现矩阵乘法,以获得大型矩阵.单独每个矩阵的大小大于GPU内存.所以我认为我需要一种算法来有效地做到这一点.我绕着互联网走了但找不到任何东西.任何人都可以给我这样的算法的名称或链接.
谢谢
cuda gpu gpgpu matrix-multiplication
cuda ×1
gpgpu ×1
gpu ×1
matrix-multiplication ×1