相关疑难解决方法(0)

如何计算内核的Gflops

我想要衡量一下我的内核存档的峰值性能.

假设我有一台NVIDIA Tesla C1060,它的峰值GFLOPS为622.08(〜= 240Cores*1300MHz*2).现在在我的内核中我计算每个线程16000翻牌(4000 x(2减法,1乘法和1 sqrt)).因此,当我有1,000,000个线程时,我会想出16GFLOP.由于内核耗时0.1秒,我将存档160GFLOPS,这将是峰值性能的四分之一.现在我的问题:

  • 这种方法是否正确?
  • 比较(if(a>b) then....)怎么样?我也必须考虑它们吗?
  • 我可以使用CUDA分析器获得更简单,更准确的结果吗?我尝试了instructions计数器,但我无法弄清楚,数字意味着什么.

姐妹问题:如何计算CUDA内核的实现带宽

profiling cuda

14
推荐指数
2
解决办法
1万
查看次数

标签 统计

cuda ×1

profiling ×1