CPU是否等待DEVICE完成其内核执行....?

Jit*_*dra 12 cuda

主机是否等待设备完成执行?例如,程序具有如下结构

// cpu code segment

// data transfer from host to device

QUESTION - WILL CPU WAIT FOR DEVICE TO FINISH TRANSFER? IF NO, IS IT POSSIBLE? IF YES, HOW?

// kernel launch

QUESTION - WILL CPU WAIT FOR DEVICE TO LET IT FINISH KERNEL EXECUTION (CONSIDERING KERNEL EXECUTION WILL TAKE NOTABLE TIME say-5 sec)? IF NO, IS IT POSSIBLE? IF YES, HOW?

// data transfer from device to host

// program terminates after printing some information 
Run Code Online (Sandbox Code Playgroud)

sga*_*zvi 19

CUDA运行时的同步功能可以让您实现您想要的功能.

cudaDeviceSynchronize():

当您调用此函数时,CPU将等待设备完成其所有工作,无论是内存复制还是内核执行.

cudaStreamSynchronize(cudaStream):

此函数将阻止CPU,直到指定的CUDA流完成其执行.其他CUDA流将以异步方式继续执行.

  • 为了扩展这个,有两个问题:1)对于数据传输,如果使用`cudaMemcpy()`,CPU将阻塞并等待传输完成 - 如果你使用异步版本(`cudaMemcpyAsync()`)那么它是异步的,CPU不会阻塞(显然); 2)内核启动总是异步的,如编程指南中所述 - 在内核调用之后进行同步(使用`cudaDeviceSynchronize()`(或等效的流)或调用同步memcpy将导致CPU阻塞. (8认同)
  • 还要记住,如果您正在使用GPU,那么理想情况下您将复制数据并异步执行内核 - 也可以充分利用您可以使用的所有引擎! (2认同)