小编use*_*341的帖子

每个周期的浮点运算 - 英特尔

我一直在寻找相当长一段时间,似乎无法找到一个官方/结论性的数字引用英特尔至强四核可以完成的单精度浮点运算/时钟周期的数量.我有一个Intel Xeon quadcore E5530 CPU.

我希望用它来计算我的CPU可以达到的最大理论FLOP/s.

MAX FLOPS =(#内核数)*(时钟频率(周期/秒))*(#FLOPS /周期)

任何指向我正确方向的东西都会有用.我已经发现每个循环的这个 FLOPS用于沙桥和haswell SSE2/AVX/AVX2

英特尔酷睿2和Nehalem:

4 DP FLOP /周期:2宽SSE2加+ 2宽SSE2乘法

8 SP FLOP /周期:4宽SSE加法+ 4宽SSE乘法

但我不确定这些数据在哪里被发现.他们是假设融合乘法加法(FMAD)操作吗?

编辑:使用它,在DP中我计算出英特尔引用的正确DP算术吞吐量为38.4 GFLOP/s(此处引用).对于SP,我得到双倍,76.8 GFLOP/s.我很确定4 DP FLOP /周期和8 SP FLOP /周期是正确的,我只想确认他们如何获得4和8的FLOP /周期值.

cpu intel cpu-architecture flops nehalem

7
推荐指数
1
解决办法
1万
查看次数

标签 统计

cpu ×1

cpu-architecture ×1

flops ×1

intel ×1

nehalem ×1