我有一个CUDA内核,可以调用一系列设备函数.
获取每个设备功能的最佳方法是什么?
在其中一个设备功能中获取代码段执行时间的最佳方法是什么?
optimization benchmarking cuda
benchmarking ×1
cuda ×1
optimization ×1