高效的SSE NxN矩阵乘法

Ham*_*ani 2 c++ assembly sse simd matrix-multiplication

我正在尝试SSE通过矩阵乘法实现大矩阵的版本.我正在寻找一种基于SIMD实现的高效算法.

我想要的方法如下:

A(n x m) * B(m x k) = C(n x k)
Run Code Online (Sandbox Code Playgroud)

并且所有矩阵都被认为是16字节对齐的浮点数组.

我在网上搜索了一些描述8x8乘法甚至更小的文章.我真的需要它尽可能高效,我不想使用Eigen库或类似的库.(只是SSE3为了更具体).

所以,如果有人能帮我找到一些关于如何开始实现这个的文章或资源,我将不胜感激.

Mar*_*han 9

实现任意大小的矩阵 - 矩阵乘法的主要挑战不是使用SIMD,而是重用缓存数据.本文由后藤和van de Geijn高性能矩阵乘法的解剖是一个必须阅读,如果你想实现缓存友好矩阵的矩阵乘法,而且还讨论了核的选择要SIMD友好.在阅读本文后,预计在经过两周的努力后,在矩阵 - 矩阵乘法上达到机器峰值的50%.

但是,如果这项工作的目的不是纯粹的学习,我强烈建议使用高度优化的库.在x86上,您最好的选择是OpenBLAS(BSD许可,支持动态CPU调度),BLIS(BSD许可,轻松移植到新处理器)和英特尔MKL(商用,支持在英特尔处理器上进行动态CPU调度).出于性能原因,最好避免使用ATLAS,除非您针对的是其他库不支持的异常架构.

  • @Zboson我还建议你看一下关于BLIS的论文,特别是如果你对线性代数的多核优化感兴趣的话.他们在这里:https://code.google.com/p/blis/#Citations (2认同)