相关疑难解决方法(0)

如何减少CUDA同步延迟/延迟

这个问题与使用cuda流来运行许多内核有关

在CUDA中,有许多同步命令cudaStreamSynchronize,CudaDeviceSynchronize,cudaThreadSynchronize以及cudaStreamQuery来检查流是否为空.

我注意到在使用分析器时,这些同步命令会给程序带来很大的延迟.我想知道是否有人知道减少这种延迟的任何方法,当然除了使用尽可能少的同步命令.

还有任何数字来判断最有效的同步方法.考虑在应用程序中使用的3个流,如果我使用2个cudaStreamSyncs或者只使用一个cudaDeviceSync,那么其中两个需要完成才能启动第四个流,这将导致更少的损失?

concurrency cuda latency synchronize cuda-streams

7
推荐指数
1
解决办法
2334
查看次数

标签 统计

concurrency ×1

cuda ×1

cuda-streams ×1

latency ×1

synchronize ×1