Vararg x86-64 ABI。寄存器中浮点参数的数量

Question

Vararg x86-64 ABI。寄存器中浮点参数的数量

我正在查看x86-64ABIFigure 3.31 ，并对和中的示例有疑问Figure 3.32：

int a, b;
long double ld;
double m, n;
__m256 u, y;
__m512 v, z;
extern void func (int a, double m, __m256 u, __m512 v, ...);
func (a, m, u, v, b, ld, y, z, n);

Run Code Online (Sandbox Code Playgroud)

据说当向func函数传递参数时%rax包含 3 个，但我只能看到寄存器中传递了 2 个浮点值：ld和m。所以我实现了以下示例：

impl.c:

#include <immintrin.h>

unsigned long func(int a, double m, __m256 u, __m512 v, ...){
    unsigned long rax;
    __asm__ __volatile__(
        "" :
        "=a" (rax) : :
    );
    return rax;
}

Run Code Online (Sandbox Code Playgroud)

main.c

#include <immintrin.h>
#include <stdio.h>

unsigned long func(int a, double m, __m256 u, __m512 v, ...);

int main(void){
    int a = 10,
        b = 20;
    long double ld = 30.0;
    double m = 40.0,
           n = 50.0;
    __m256 u, y;
    __m512 v, z;
    printf("%lu\n", func(a, m, u, v, b, ld, y, z, n)); //prints 2
}

Run Code Online (Sandbox Code Playgroud)

是拼写错误吗？那么寄存器的正确内容%rax应该是2而不是3？

Answer 1

Pet*_*des 5

ABI 文档有一个错误：应该是al=4针对该示例的。当添加 AVX512 时，这个数字仅得到部分更新__m512；它以前是正确的al=3，例如在没有固定参数的 ABI 0.99.7 修订版中__m512。

@AnttiHaapala 是正确的，他们也未能更新 3.32 以显示z在堆栈上，位于64:。

al应该是向量寄存器中的参数总数（包括固定参数）。 这包括XMM 寄存器中的任何arg，无论是标量还是__m128（可以作为变量传递）。 或者对于固定参数，还包括__m256和__m512。（宽向量在可变参数函数的堆栈上传递；（可能）使用的可变参数函数va_arg不需要__m256转储所有 YMM 寄存器，仍然只需要转储 XMM。传递可变参数 SIMD 向量的用例非常少。）

但请注意，80 位long double ld不会在 XMM 寄存器中传递。SSE/AVX 指令无法对 80 位 x87 扩展精度数据执行任何操作，因此强制函数将其复制到 XMM 寄存器或从 XMM 寄存器复制，然后返回到 x87 堆栈寄存器是没有意义的。

请注意，RAX 的高字节必须被被调用者忽略。对于调用者来说，这样做通常很方便，mov eax, 3而不仅仅是mov al,3为了避免错误依赖的可能性；ABI 文档的图表基于 GCC 的正常行为，实际上应该说%al，而不是%rax

为什么 GCC 对旧版 ABI 使用值 2？

因为您忘记在编译时实际启用 AVX（和 AVX512）。

ABI 文档假设__m256变量仅在具有 YMM 寄存器（AVX 支持）的机器上使用，因此它们可以在寄存器中传递。

如果你弄错了，GCC 会警告你：

<source>: In function 'void caller()':
<source>:11:9: warning: AVX vector argument without AVX enabled changes the ABI [-Wpsabi]
   11 |    func (a, m, u, v, b, ld, y, z, n);
      |    ~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~

<source>:11:9: note: the ABI for passing parameters with 32-byte alignment has changed in GCC 4.6
<source>:11:9: warning: AVX512F vector argument without AVX512F enabled changes the ABI [-Wpsabi]

Run Code Online (Sandbox Code Playgroud)

编译时gcc -O3会给出该警告，并包含在包含来自 ABI 文档的调用mov eax,2的 asm 中。caller()func()

用gcc -O3 -march=skylake-avx512(或-mavx512f) 编译给出4. 或者，3如果您要省略进入向量寄存器的参数之一。

通常可以肯定的是，GCC 正确实现了 ABI，因此您只需查看其代码即可了解会发生什么。构造一个实际打印RAX 的复杂方法要复杂得多，并且会阻止您注意到您的代码没有使用 AVX512。

void caller() {
   func (a, m, u, v, b, ld, y, z, n);
}

Run Code Online (Sandbox Code Playgroud)

正确编译为这个asm（Godbolt，gcc9.2-O3 -march=skylake-avx512）：

caller():
        lea     r10, [rsp+8]
        and     rsp, -64                # align the stack by 64
        push    QWORD PTR [r10-8]
        mov     eax, 4                  # AL = 4 args in vector regs
        push    rbp
        mov     rbp, rsp                # frame pointer for some reason?
        push    r10
        sub     rsp, 152                # reserve space for args
        vmovaps zmm4, ZMMWORD PTR z[rip]
        vmovaps ymm5, YMMWORD PTR y[rip]
        vmovaps ZMMWORD PTR [rsp+48], zmm4
        vmovaps YMMWORD PTR [rsp+16], ymm5  # copy the variadic wide vectors to their slots
        push    QWORD PTR ld[rip+8]
        vmovsd  xmm3, QWORD PTR n[rip]      # n passed in xmm3
        mov     esi, DWORD PTR b[rip]       # b passed in ESI
        push    QWORD PTR ld[rip]           # low half of 16-byte  ld
        vmovaps zmm2, ZMMWORD PTR v[rip]
        vmovaps ymm1, YMMWORD PTR u[rip]    # fixed args passed in x/y/zmm0..2
        vmovsd  xmm0, QWORD PTR m[rip]
        mov     edi, DWORD PTR a[rip]       # a passed in EDI

        call    func(int, double, float __vector(8), float __vector(16), ...)

        mov     r10, QWORD PTR [rbp-8]
        sub     rsp, -128
        leave
        lea     rsp, [r10-8]                 # stack-alignment cleanup
        ret

Run Code Online (Sandbox Code Playgroud)

向量寄存器中有 4 个参数，AL = 4。

归档时间：	5 年，11 月前
查看次数：	757 次
最近记录：	5 年，11 月前