我是CUDA编程的新手,正在阅读nvidia提供的"CUDA C编程指南".(http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf)
在第25页中,它具有以下用于进行矩阵乘法的C代码.你能否告诉我如何在两台设备上运行该代码?(如果我的计算机上安装了两个支持nvida CUDA的卡).能告诉我一个例子吗?
// Matrices are stored in row-major order:
// M(row, col) = *(M.elements + row * M.stride + col)
typedef struct {
int width;
int height;
int stride;
float* elements;
} Matrix;
// Get a matrix element
__device__ float GetElement(const Matrix A, int row, int col)
{
return A.elements[row * A.stride + col];
}
// Set a matrix element
__device__ void SetElement(Matrix A, int row, int col, float value)
{
A.elements[row * A.stride + col] …Run Code Online (Sandbox Code Playgroud)