我想要衡量一下我的内核存档的峰值性能.
假设我有一台NVIDIA Tesla C1060,它的峰值GFLOPS为622.08(〜= 240Cores*1300MHz*2).现在在我的内核中我计算每个线程16000翻牌(4000 x(2减法,1乘法和1 sqrt)).因此,当我有1,000,000个线程时,我会想出16GFLOP.由于内核耗时0.1秒,我将存档160GFLOPS,这将是峰值性能的四分之一.现在我的问题:
if(a>b) then....)怎么样?我也必须考虑它们吗?instructions计数器,但我无法弄清楚,数字意味着什么.姐妹问题:如何计算CUDA内核的实现带宽