相关疑难解决方法(0)

使用2个视频卡进行CUDA C编程

我是CUDA编程的新手,正在阅读nvidia提供的"CUDA C编程指南".(http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf)

在第25页中,它具有以下用于进行矩阵乘法的C代码.你能否告诉我如何在两台设备上运行该代码?(如果我的计算机上安装了两个支持nvida CUDA的卡).能告诉我一个例子吗?

// Matrices are stored in row-major order: 
// M(row, col) = *(M.elements + row * M.stride + col) 
typedef struct { 
    int width; 
    int height; 
    int stride; 
    float* elements; 
} Matrix; 

// Get a matrix element 
__device__ float GetElement(const Matrix A, int row, int col) 
{ 
    return A.elements[row * A.stride + col]; 
} 

// Set a matrix element 
__device__ void SetElement(Matrix A, int row, int col, float value) 
{ 
    A.elements[row * A.stride + col] …
Run Code Online (Sandbox Code Playgroud)

c cuda nvidia

7
推荐指数
1
解决办法
2179
查看次数

使用 cuBLAS-XT 进行大输入

此链接 说 cuBLAS-XT 例程提供核外操作 - 操作数数据的大小仅受系统内存大小的限制,不受 GPU 板载内存大小的限制。这意味着只要输入数据可以存储在 CPU 内存上并且输出的大小大于 GPU 内存大小我们就可以使用 cuBLAS-XT 函数,对吗?

另一方面,这个链接说“在非常大的问题的情况下,cublasXt API 提供了将一些计算卸载到主机 CPU 的可能性”和“当前,只有例程 cublasXtgemm() 支持这个功能。这是吗?输入大小大于CPU内存大小的问题的情况?

没看懂这两者的区别!如果有人帮助我理解差异,我将不胜感激。

cuda cublas

3
推荐指数
1
解决办法
620
查看次数

标签 统计

cuda ×2

c ×1

cublas ×1

nvidia ×1