C hello世界的汇编输出的每一行的含义是什么?

Moh*_*ed 33 linux x86 assembly gcc

我在这上面运行了gcc -S:

int main()
{
printf ("Hello world!");
}
Run Code Online (Sandbox Code Playgroud)

我得到了这个汇编代码:

        .file   "test.c"
        .section        .rodata
.LC0:
        .string "Hello world!"
        .text
.globl main
        .type   main, @function
main:
        leal    4(%esp), %ecx
        andl    $-16, %esp
        pushl   -4(%ecx)
        pushl   %ebp
        movl    %esp, %ebp
        pushl   %ecx
        subl    $20, %esp
        movl    $.LC0, (%esp)
        call    printf
        addl    $20, %esp
        popl    %ecx
        popl    %ebp
        leal    -4(%ecx), %esp
        ret
        .size   main, .-main
        .ident  "GCC: (GNU) 4.3.0 20080428 (Red Hat 4.3.0-8)"
        .section        .note.GNU-stack,"",@progbits
Run Code Online (Sandbox Code Playgroud)

我很想知道这个输出.有人可以在理解这个输出时分享一些指示,或者如果有人可以针对这些行/行组中的每一行标记注释来解释它的作用,那将会很棒.

Tho*_*nin 61

它是怎么回事:

        .file   "test.c"
Run Code Online (Sandbox Code Playgroud)

原始源文件名(由调试器使用).

        .section        .rodata
.LC0:
        .string "Hello world!"
Run Code Online (Sandbox Code Playgroud)

一个以零结尾的字符串包含在".rodata"部分中("ro"表示"只读":应用程序将能够读取数据,但任何写入数据的尝试都将触发异常).

        .text
Run Code Online (Sandbox Code Playgroud)

现在我们将内容写入".text"部分,这是代码所在的部分.

.globl main
        .type   main, @function
main:
Run Code Online (Sandbox Code Playgroud)

我们定义一个名为"main"的函数并且全局可见(其他对象文件将能够调用它).

        leal    4(%esp), %ecx
Run Code Online (Sandbox Code Playgroud)

我们在寄存器中存储%ecx4+%esp(%esp是堆栈指针).

        andl    $-16, %esp
Run Code Online (Sandbox Code Playgroud)

%esp稍微修改,使其成为16的倍数.对于某些数据类型(对应于C double和的浮点格式long double),当内存访问位于16的倍数的地址时,性能会更好.这里不需要,但是在没有优化标志(-O2...)的情况下使用时,编译器往往会生成相当多的通用无用代码(即代码在某些情况下可能很有用,但在这里却没有).

        pushl   -4(%ecx)
Run Code Online (Sandbox Code Playgroud)

这个有点奇怪:在这一点上,地址-4(%ecx)处的单词是在堆栈顶部之前的单词andl.代码检索该单词(顺便说一下应该是返回地址)并再次推送它.这种模拟来自具有16字节对齐堆栈的函数的调用所获得的内容.我的猜测是,这push是一个参数复制序列的残余.由于函数调整了堆栈指针,因此必须复制函数参数,这些参数可通过堆栈指针的旧值访问.这里除了函数返回地址之外没有参数.请注意,不会使用此单词(再次,这是没有优化的代码).

        pushl   %ebp
        movl    %esp, %ebp
Run Code Online (Sandbox Code Playgroud)

这是标准函数序言:我们保存%ebp(因为我们即将修改它),然后设置%ebp为指向堆栈帧.此后,%ebp将用于访问函数参数,%esp再次释放.(是的,没有争论,所以这对于那个函数来说没用.)

        pushl   %ecx
Run Code Online (Sandbox Code Playgroud)

我们保存%ecx(我们将在函数出口处需要它,以恢复%esp它之前的值andl).

        subl    $20, %esp
Run Code Online (Sandbox Code Playgroud)

我们在堆栈上保留32个字节(请记住堆栈"向下"增长).该空间将用于存储参数printf()(这是过度的,因为有一个参数,将使用4个字节[这是一个指针]).

        movl    $.LC0, (%esp)
        call    printf
Run Code Online (Sandbox Code Playgroud)

我们"推"参数printf()(即我们确保%esp指向包含参数的单词,这里$.LC0是rodata部分中常量字符串的地址).然后我们打电话printf().

        addl    $20, %esp
Run Code Online (Sandbox Code Playgroud)

printf()返回时,我们除去分配给参数的空间.这addl取消了subl上面所做的.

        popl    %ecx
Run Code Online (Sandbox Code Playgroud)

我们恢复%ecx(推到上面); printf()可能已经修改过它(调用约定描述了哪个寄存器可以修改函数而不在退出时恢复它们; %ecx是一个这样的寄存器).

        popl    %ebp
Run Code Online (Sandbox Code Playgroud)

功能结尾:这个恢复%ebp(对应pushl %ebp上面的).

        leal    -4(%ecx), %esp
Run Code Online (Sandbox Code Playgroud)

我们恢复%esp到初始值.此操作码的作用是存储在%esp值中%ecx-4.%ecx在第一个函数操作码中设置.这取消了任何改动%esp,包括andl.

        ret
Run Code Online (Sandbox Code Playgroud)

功能退出.

        .size   main, .-main
Run Code Online (Sandbox Code Playgroud)

这设置了main()函数的大小:在汇编期间的任何时候," ."是"我们现在正在添加内容的地址"的别名.如果在这里添加了另一条指令,它将在" ." 指定的地址处.因此,.-main这里的" "是函数代码的确切大小main().该.size指令指示汇编程序将该信息写入目标文件中.

        .ident  "GCC: (GNU) 4.3.0 20080428 (Red Hat 4.3.0-8)"
Run Code Online (Sandbox Code Playgroud)

海湾合作委员会只是喜欢留下其行动的痕迹.该字符串最终作为对象文件中的一种注释.链接器将删除它.

        .section        .note.GNU-stack,"",@progbits
Run Code Online (Sandbox Code Playgroud)

GCC写的一个特殊部分,代码可以容纳不可执行的堆栈.这是正常情况.某些特殊用途(非标准C)需要可执行堆栈.在现代处理器上,内核可以创建一个不可执行的堆栈(如果有人试图将代码作为代码执行堆栈中的某些数据,则触发异常的堆栈); 这被一些人视为"安全功能",因为将代码放在堆栈上是利用缓冲区溢出的常用方法.在本节中,可执行文件将被标记为"与非可执行堆栈兼容",内核将很乐意提供这些内容.


Eri*_*ang 16

这是@Thomas Pornin答案的一些补充.

  • .LC0 局部常量,例如字符串文字.
  • .LFB0 本地功能开始,
  • .LFE0 本地功能结束,

这些标签的后缀是一个数字,从0开始.

这是gcc汇编程序约定.