CUDA,如何选择<<<块,线程<>>?

Tor*_*ohr 9 cuda

在库中,我使用了几个CUDA内核的调用.当然我想获得最佳表现.用户如何使用库可能会有所不同.

块/线程的数量会显着影响这一点.

是否有一些关于如何选择块/线程以获得最佳性能的规则?

例如(只是一个问题),最好选择高块,线程低吗?或者相反?或者最好使用GetDeviceProperties()中的一些值?

rps*_*rps 0

您可以使用NVIDIA提供的依赖计算器.xls来选择[您必须尝试更改xls中线程和块的值]最佳配置,在该配置上您可以获得最佳占用率,从而获得最佳性能。