为什么我没有与GTX 480和CUDA 5重叠数据传输和计算？

Question

为什么我没有与GTX 480和CUDA 5重叠数据传输和计算？

Dre*_*dok 6 concurrency cuda overlapping nsight

我试图将内核执行与memcpyasync重叠,但它不起作用.我遵循编程指南中的所有建议,使用固定内存,不同的流等.我看到内核执行确实重叠,但它不与mem传输.我知道我的卡只有一个复制引擎和一个执行引擎,但执行和传输应该重叠,对吧？

似乎"复制引擎"和"执行引擎"总是强制执行我称之为函数的顺序.工作包括执行[HtoD x2,Kernel,DtoH]的4个流.如果我在每个流上发出HtoDx2,Kernel,DtoH系列,我在profiler中看到像stream2 HtoD第一个操作在第一个DtoH操作结束之前不会启动.如果我首先在每个流上发布HtoD,那么第二个HtoD,然后是内核,然后是DtoH(广度),我看不到重叠,并且GPU也强制执行问题顺序.

我已尝试使用CUDA SDK中给出的simpleStreams示例,我也看到了相同的行为.

我附上了一些屏幕截图,显示了VS2008的visual profiler和Nsight中的问题.

PS.我没有设置CUDA_LAUNCH_BLOCKING环境

Simple Streams Visual Profiler