“nvprof”结果中的“GPU 活动”和“API 调用”有什么区别?
不知道为什么同一个函数会有时差。例如,[CUDA memcpy DtoH] 和 cuMemcpyDtoH。
所以我不知道什么时候合适。我必须写一个测量,但我不知道该使用哪个。
c++ cuda nvprof
c++ ×1
cuda ×1
nvprof ×1