相关疑难解决方法(0)

使用AVX/AVX2转置8x8浮点数

通过制作四个4x4矩阵并转置每个矩阵,可以实现8x8矩阵的转置.这不是我想要的.

在另一个问题中,一个答案提供了一个解决方案,只需要24个8x8矩阵指令.但是,这不适用于花车.

由于AVX2包含256位寄存器,因此每个寄存器适合8个32位整数(浮点数).但问题是:

如何使用AVX/AVX2转换8x8浮点矩阵,尽可能使用最小的指令？

14
推荐指数

2
解决办法

6323
查看次数

标签统计

avx ×1

avx2 ×1

simd ×1