我一直在寻找相当长一段时间,似乎无法找到一个官方/结论性的数字引用英特尔至强四核可以完成的单精度浮点运算/时钟周期的数量.我有一个Intel Xeon quadcore E5530 CPU.
我希望用它来计算我的CPU可以达到的最大理论FLOP/s.
MAX FLOPS =(#内核数)*(时钟频率(周期/秒))*(#FLOPS /周期)
任何指向我正确方向的东西都会有用.我已经发现每个循环的这个 FLOPS用于沙桥和haswell SSE2/AVX/AVX2
英特尔酷睿2和Nehalem:
4 DP FLOP /周期:2宽SSE2加+ 2宽SSE2乘法
8 SP FLOP /周期:4宽SSE加法+ 4宽SSE乘法
但我不确定这些数据在哪里被发现.他们是假设融合乘法加法(FMAD)操作吗?
编辑:使用它,在DP中我计算出英特尔引用的正确DP算术吞吐量为38.4 GFLOP/s(此处引用).对于SP,我得到双倍,76.8 GFLOP/s.我很确定4 DP FLOP /周期和8 SP FLOP /周期是正确的,我只想确认他们如何获得4和8的FLOP /周期值.