小编Gen*_*tek的帖子

"cudaMallocManaged"比"cudaMalloc"慢吗?

我下载了CUDA 6.0 RC并在我的应用程序中使用"cudaMallocManaged"测试了新的统一内存.但是,我发现这个内核速度变慢了.

与cudaMallocManaged(~0.63)相比,使用cudaMalloc后跟cudaMemcpy更快(~0.56).这是预期的吗?

其中一个网站声称cudaMallocManged用于"更快的cuda内核原型",所以我想知道哪个应用程序在性能方面更好?

谢谢.

cuda hpc gpgpu nvidia

5
推荐指数
1
解决办法
9466
查看次数

如何从多个CPU线程管理相同的CUDA内核调用?

我有一个cuda内核,当从单个CPU线程调用时,它可以正常工作。但是,当从多个CPU线程(〜100)调用同一内核时,大多数内核似乎根本不执行,因为结果全为零。有人可以指导我如何解决此问题吗?

在当前版本的内核中,我在内核调用结束时使用cudadevicesynchronize()。在这种情况下,在cudaMalloc()和内核调用之前添加sync命令会有帮助吗?

还有另一件事需要澄清。例如,如果两个CPU线程执行相同的cudaMalloc()命令,则后者会覆盖GPU内存中的前者还是会创建自己的内存?

在此先感谢您的帮助

multithreading cuda gpu gpgpu thread-safety

1
推荐指数
1
解决办法
2277
查看次数

标签 统计

cuda ×2

gpgpu ×2

gpu ×1

hpc ×1

multithreading ×1

nvidia ×1

thread-safety ×1