是否有更好的 AVX 指令从 3 个 ymm 寄存器移动数据？

Question

是否有更好的 AVX 指令从 3 个 ymm 寄存器移动数据？

RTC*_*222 2 assembly x86-64 nasm avx avx2

我有三个 ymm 寄存器——ymm4、ymm5 和 ymm6——用双精度（qword）浮点数打包：

ymm4:   73  144 168 41
ymm5:   144 348 26  144
ymm6:   732 83  144 852

Run Code Online (Sandbox Code Playgroud)

我想写上面矩阵的每一列。例如：

-- extract ymm4[63:0] and insert it at ymm0[63:0]
-- extract ymm5[63:0] and insert it at ymm0[127:64]
-- extract ymm6[63:0] and insert it at ymm0[191:128]

Run Code Online (Sandbox Code Playgroud)

以便 ymm0 读取 73、144、732。

到目前为止，我使用过：

mov rax,4
kmovq k6,rax
vpxor ymm1,ymm1
VEXPANDPD ymm1{k6}{z},ymm6

Run Code Online (Sandbox Code Playgroud)

这会导致 ymm1 读取 [0 0 732]，所以我已经完成了第一步，因为 732 是 ymm6 中 [63:0] 处的元素。

对于 ymm4 和 ymm5，我使用 vblendpd：

vblendpd ymm0,ymm1,ymm4,1

Run Code Online (Sandbox Code Playgroud)

这会导致 ymm0 读取 [73 0 732]，所以我已经完成了第二步，因为 73 是 ymm4 中 [63:0] 处的元素。

现在我需要将 ymm5[63:0] 放在 ymm0[127:64]：

vblendpd ymm0,ymm0,ymm5,2

Run Code Online (Sandbox Code Playgroud)

这导致 ymm0 读取 [73 144 732]，所以现在我完成了第一列 [63:0]。

但是现在我需要对 ymm 寄存器中的第 2、3 和 4 列执行相同的操作。在添加更多说明之前，这是执行我所描述的最有效方法吗？还有其他更有效的方法吗？

我调查了 unpckhpd ( https://www.felixcloutier.com/x86/unpckhpd )、vblendpd ( https://www.felixcloutier.com/x86/blendpd和 vshufpd ( https://www.felixcloutier.com/x86 /shufpd )，我上面展示的似乎是最好的解决方案，但它有很多指令，而且文档中显示的 imm8 值的编码有些不透明。有没有更好的方法来提取三个 ymm 寄存器的相应列?

Answer 1

fuz*_*fuz 5

让我们像这样命名矩阵元素：

YMM0 = [A,B,C,D]
YMM1 = [E,F,G,H]
YMM2 = [I,J,K,L]

Run Code Online (Sandbox Code Playgroud)

最终，您想要这样的结果，其中*表示“不在乎”。

YMM0 = [A,E,I,*]
YMM1 = [B,F,J,*]
YMM2 = [C,G,K,*]
YMM3 = [D,H,K,*]

Run Code Online (Sandbox Code Playgroud)

为了实现这一点，我们将矩阵扩展到 4×4（想象另一行只是[*,*,*,*]），然后转置矩阵。这分两步完成：首先，每个 2×2 子矩阵被转置。然后，交换左上角和右下角矩阵：

[A,B,C,D]       [A,E,C,G]       [A,E,I,*]
[E,F,G,H]  --\  [B,F,D,H]  --\  [B,F,J,*]
[I,J,K,L]  --/  [I,*,K,*]  --/  [C,G,K,*]
[*,*,*,*]       [J,*,L,*]       [D,H,L,*]

Run Code Online (Sandbox Code Playgroud)

对于ymm0and 的第一步ymm1，我们使用一对解包指令：

vunpcklpd %ymm1, %ymm0, %ymm4         // YMM4 = [A,E,C,G]
vunpckhpd %ymm1, %ymm0, %ymm5         // YMM5 = [B,F,D,H]

Run Code Online (Sandbox Code Playgroud)

第 3 行ymm2暂时保留，因为它不需要更改。第 4 行是通过ymm2自身拆包获得的：

vunpckhpd %ymm2, %ymm2, %ymm6         // YMM5 = [J,*,L,*]

Run Code Online (Sandbox Code Playgroud)

第二步是通过混合和交换车道两次来实现的：

vblendpd $0xa, %ymm2, %ymm4, %ymm0    // YMM0 = [A,E,I,*]
vblendpd $0xa, %ymm6, %ymm5, %ymm1    // YMM1 = [B,F,J,*]
vperm2f128 $0x31, %ymm2, %ymm4, %ymm2 // YMM2 = [C,G,K,*]
vperm2f128 $0x31, %ymm6, %ymm5, %ymm3 // YMM3 = [D,H,L,*]

Run Code Online (Sandbox Code Playgroud)

这在 7 条指令中实现了所需的排列。

请注意，由于这些指令都不需要 AVX2，因此此代码将在仅具有 AVX 的 Sandy Bridge 处理器上运行。

@RTC222 是的。我的答案期望输入“ymm0”、“ymm1”和“ymm2”，并将结果放入“ymm0”到“ymm3”，在此过程中丢弃“ymm4”和“ymm5”。请随意根据需要对寄存器重新编号。 (2认同)

归档时间：	5 年，5 月前
查看次数：	189 次
最近记录：	5 年，5 月前