我正在编写一个程序,它需要使用CUDA并行数百个矩阵.有人可以解释如何执行此操作.
我已经看到Kepler架构能够实现动态并行.有人使用过这种架构,如果有的话,使用哪种Nvidia显卡.
cuda matrix matrix-multiplication
cuda ×1
matrix ×1
matrix-multiplication ×1