当我在Windows 7中运行我的CUDA应用程序时(相对于Linux),我注意到了性能上的巨大打击.我想我可能知道减速发生的位置:无论出于何种原因,Windows Nvidia驱动程序(版本331.65)在通过运行时API调用时不会立即调度CUDA内核.为了说明这个问题,我描述了mergeSort应用程序(来自CUDA 5.5附带的示例).
首先考虑在Linux中运行时的内核启动时间:

接下来,考虑在Windows中运行时的启动时间:

这篇文章表明问题可能与批量启动内核的Windows驱动程序有关.无论如何我可以禁用这个批处理吗?
我使用的是GTX 690 GPU,Windows 7和Nvidia驱动程序的331.65版本.