我想了解如何计算FMA性能。如果我们在这里查看说明:
对于Skylake架构,该指令具有Latency=4和Throughput(CPI)=0.5,因此该指令的整体性能为4*0.5 = 2每条指令的时钟数。
据我了解,如果最大(涡轮)时钟频率为3GHz,那么对于一秒钟的单个内核,我可以执行1 500 000 000条指令。
这样对吗?如果是这样,我观察到性能稍高的原因可能是什么?
吞吐量为0.5意味着处理器可以在每个周期执行两个独立的FMA。因此,在3GHz时,整个FMA的最大值为每秒60亿。您说您只能实现略大于1.5B的吞吐量。可能由于以下一种或多种原因而发生:
| 归档时间: |
|
| 查看次数: |
139 次 |
| 最近记录: |