我正在编写一个代码,使用点积的CUBLAS例程计算两个向量的点积,但它返回主机内存中的值.我想使用点积来进一步计算GPGPU.如何使值仅驻留在GPGPU上并将其用于进一步计算而无需从CPU到GPGPU的显式复制?
cuda gpgpu dot-product cublas
cublas ×1
cuda ×1
dot-product ×1
gpgpu ×1