sta*_*tor 2 memory cuda cublas
我注意到我可以使用内存块来表示使用cudamalloc()或cublasalloc()函数分配的矩阵来调用cublas函数.使用cudamalloc()而不是cublasalloc()分配的数组的矩阵传输速率和计算速度较慢,尽管使用cudamalloc()使用数组还有其他优点.为什么会这样?听到一些评论会很高兴.
Tom*_*Tom 5
cublasAlloc本质上是一个包装器,cudaMalloc()所以应该没有区别,你的代码中还有其他什么变化吗?
cublasAlloc
cudaMalloc()
归档时间:
16 年 前
查看次数:
2016 次
最近记录:
13 年,2 月 前