使用GCC + ARM减少递归期间的堆栈使用

Gor*_*ams 6 c memory stack gcc arm

我有一个用于嵌入式ARM处理器的递归下降解析器(在C + GCC中,用于ARM Cortex M3).

在运行它的同时我注意到它使用了大量的堆栈空间(甚至超出了你的预期)并且经过仔细检查我发现这种情况正在发生:

extern int bar(int *p);

int foo() {
 int z = foo(); // it's an example!

 int n[100];  // stack usage
 return z+bar(n); // calling bar(n) stops n from being optimised out
}
Run Code Online (Sandbox Code Playgroud)

运行arm-none-eabi-gcc -fomit-frame-pointer -S test.c的结果

foo:
    str lr, [sp, #-4]!  ; Push link register
    sub sp, sp, #412    ; Reserve space on stack, even if we don't need it now!
    bl  foo             ; Recurse
    str r0, [sp, #404]  ; Store result
    ...
Run Code Online (Sandbox Code Playgroud)

因此,在函数开始时,它将整个堆栈帧推入堆栈.然而,在几次迭代之后,它已经在堆栈上加载了尚未使用的东西.

理想情况下,我希望GCC能够生成:

foo:
    str lr, [sp, #-4]!  ; Push link register
    ; Don't reserve space, because we don't need it
    bl  foo             ; Recurse
    sub sp, sp, #412    ; Reserve space now
    str r0, [sp, #404]  ; Store result
    ...
Run Code Online (Sandbox Code Playgroud)

(这可能不正确,但我希望你明白这个想法)

使用下面的代码可以实现这样的东西,但它真的很讨厌(如果GCC内联fooworker,它会再次破坏!).肯定有更好的办法?

int fooworker(int z) {
 int n[100];  // stack usage
 return z+bar(n); // calling bar(n) stops n from being optimised out
}


int foo() {
 return fooworker(foo());
}
Run Code Online (Sandbox Code Playgroud)

那么有没有办法告诉GCC只在基本块的开头放大堆栈,或者是否有一个"屏障"语句导致在该点添加额外的push/pop操作?我猜GCC正在使用ARM标准调用类型之一 - 但有没有办法用另一种调用类型来标记这些函数,这种调用类型对堆栈更有效,或者有没有办法重写函数,使得堆栈是使用得更明智一点?

请不要告诉我不要使用递归,它没有回答这个问题.

Art*_*Art 3

int *n = alloca(sizeof(*n) * 100);
Run Code Online (Sandbox Code Playgroud)

它很丑陋,我个人将函数分成两部分,但似乎在我的 amd64 上的 gcc 中的所有优化级别上都可以工作。