由于GPU上的一些初始化工作,第一个cudaMalloc调用很慢(如0.2秒).是否有任何单独进行初始化的功能,以便我可以分开时间?cudaSetDevice似乎将时间缩短到0.15秒,但仍然没有消除所有init开销.
cuda gpu
cuda ×1
gpu ×1