Tor*_*ohr 9 cuda
在库中,我使用了几个CUDA内核的调用.当然我想获得最佳表现.用户如何使用库可能会有所不同.
块/线程的数量会显着影响这一点.
是否有一些关于如何选择块/线程以获得最佳性能的规则?
例如(只是一个问题),最好选择高块,线程低吗?或者相反?或者最好使用GetDeviceProperties()中的一些值?
rps*_*rps 0
您可以使用NVIDIA提供的依赖计算器.xls来选择[您必须尝试更改xls中线程和块的值]最佳配置,在该配置上您可以获得最佳占用率,从而获得最佳性能。
归档时间:
13 年,1 月 前
查看次数:
1369 次
最近记录:
12 年 前