为什么矢量化使用浮点数比使用双数更有效？

Question

我注意到在 C 程序中向量化循环时，与双操作数相比，使用 float 类型的操作数时实现的加速要大得多。

例子：

for (int i = 0; i < N; i++) {
    a[i] += b[i] * c[i];
}

当 a、b 和 c 数组的大小分别为 20,000 并且我重复此循环 1,000,000 时：

编辑：更多信息：

Answer 1

SIMD（单指令、多数据）指令在许多此类操作中发挥作用。浮点型的大小是双精度型的一半，因此单条指令可以处理的浮点数是双精度型的两倍。然而，令我惊讶的是，使用浮点数的速度是原来的三倍，而不是简单地增加了一倍。我怀疑，但不确定，这是因为浮点数更容易操作 - 实际的尾数提取等。