通过SSE加速矩阵乘法(C++)

接下来，做矩阵乘积MU = V。矩阵V包含M和前四个向量的乘积。唯一的问题是，对于 SSE，我们需要读取U的行，但在内存中U存储为xyzwtxyzwtxyzwtxyzwt所以我们必须将其转置为xxxxyyyyzzzzwwwwtttt。这可以通过 SSE 中的 shuffle/blends 来完成。一旦我们有了这种格式，矩阵乘积就会非常有效。

与使用标量代码进行 O(5x5x4) 操作不同，它只需要 O(5x5) 操作，即 4 倍加速。使用 AVX，矩阵U将是 5x8，因此它不会进行 O(5x5x8) 运算，而是只对 O(5x5) 征税，即 8 倍加速。

但是，矩阵V将采用xxxxyyyyzzzzwwwwtttt格式，因此根据应用程序，它可能必须转换为xyzwtxyzwtxyzwtxyzwt格式。

对接下来的四个向量（AVX 为 8 个）重复此操作，直到完成。

如果您可以控制向量，例如，如果您的应用程序动态生成向量，那么您可以以xxxxyyyyzzzzwwwwtttt格式生成它们并避免数组的转置。在这种情况下，您应该使用 SSE 获得 4 倍的加速，使用 AVX 获得 8 倍的加速。如果将此与线程（例如 OpenMP）结合使用，则使用 SSE 的加速应该接近 16 倍（假设有四个物理内核）。我认为这是你可以用 SSE 做的最好的事情。

编辑：由于指令级并行性 (ILP)，您可以获得 2 倍的加速，因此 SSE 的加速可以在四核 (64x AVX) 下提高 32 倍，而由于 FMA3，Haswell 的加速又是 2 倍。

归档时间：	14 年，5 月前
查看次数：	9285 次
最近记录：	12 年，7 月前