通过制作四个4x4矩阵并转置每个矩阵,可以实现8x8矩阵的转置.这不是我想要的.
在另一个问题中,一个答案提供了一个解决方案,只需要24个8x8矩阵指令.但是,这不适用于花车.
由于AVX2包含256位寄存器,因此每个寄存器适合8个32位整数(浮点数).但问题是:
如何使用AVX/AVX2转换8x8浮点矩阵,尽可能使用最小的指令?
simd avx avx2
avx ×1
avx2 ×1
simd ×1