在CUDA和OpenCL上测量相同内核的性能时,我发现了一个奇怪的事情.
当我离开我的内核绝对空,没有任何输入参数和计算时,与OpenCL相比,CUDA给我的性能非常差.
CUDA内核:
__global__ void kernel_empty()
{
}
Run Code Online (Sandbox Code Playgroud)
CUDA主持人:
kernel_empty<<<dim3(10000, 10000, 1), dim3(8, 8, 1)>>>();
Run Code Online (Sandbox Code Playgroud)
OpenCl内核:
__attribute__((reqd_work_group_size(8, 8, 1)))
__kernel void kernel_empty()
{
}
Run Code Online (Sandbox Code Playgroud)
OpenCL主机:
cl_event perf_event;
size_t global_work_offset[3] = {0, 0, 0};
size_t global_work_size[3] = {10000, 10000, 1};
size_t local_work_size[3] = {8, 8, 1};
clEnqueueNDRangeKernel(queue, kernel, 3, global_work_offset, global_work_size, local_work_size, 0, NULL, &perf_event);
Run Code Online (Sandbox Code Playgroud)
OpenCL给出了6ms
CUDA给出390毫秒
clGetEventProfilingInfo使用. …