获取内联GNU汇编程序中的字符串长度

Pat*_*ouf 2 linux x86 gcc gnu-assembler inline-assembly

我正在重新学习我在很老的MS-DOS机器上使用的汇编程序!

这是我对该功能应该是什么样的理解.它编译但崩溃了SIGSEGV试图把时0xffffffffecx.

代码在具有32位Debian 9的VM中运行.任何帮助将不胜感激.

    int getStringLength(const char *pStr){

        int len = 0;
        char *Ptr = pStr;

        __asm__  (
            "movl %1, %%edi\n\t"
            "xor %%al, %%al\n\t"
            "movl 0xffffffff, %%ecx\n\t"
            "repne scasb\n\t"
            "subl %%ecx,%%eax\n\t"
            "movl %%eax,%0"
            :"=r" (len)     /*Output*/
            :"r"(len)       /*Input*/
            :"%eax"         /*Clobbered register*/


    );

        return len;
    }
Run Code Online (Sandbox Code Playgroud)

Dav*_*erd 5

使用GCC的内联asm来学习汇编的问题在于你花了一半的时间来学习gcc的内联汇编是如何工作的,而不是实际学习汇编.例如,这是我如何编写相同的代码:

#include <stdio.h>

int getStringLength(const char *pStr){

    int len;

    __asm__  (
        "repne scasb\n\t"
        "not %%ecx\n\t"
        "dec %%ecx"
        :"=c" (len), "+D"(pStr)     /*Outputs*/
        :"c"(-1), "a"(0)            /*Inputs*/
        /* tell the compiler we read the memory pointed to by pStr,
           with a dummy input so we don't need a "memory" clobber */
        , "m" (*(const struct {char a; char x[];} *) pStr)

    );

    return len;
}
Run Code Online (Sandbox Code Playgroud)

请参阅Godbolt编译器资源管理器中编译器的asm输出.虚拟内存输入是棘手的部分:请参阅注释和gcc邮件列表中的讨论,以获得最佳方法,这仍然是安全的.

将此与您的示例进行比较

  1. 我没有初始化len,因为asm将它声明为输出(= c).
  2. 没有必要复制,pStr因为它是一个局部变量.根据规范,我们已经允许更改它(尽管const我们不应该修改它指向的数据).
  3. 有没有道理可讲的内联汇编把Ptreax,只为有你的ASM移动它edi.我只是把价值edi放在第一位.请注意,由于值in edi正在变化,我们不能仅将其声明为"输入"(按规范,内联asm不得更改输入值).将其更改为读/写输出可解决此问题.
  4. 没有必要让asm为零eax,因为你可以让限制为你做.作为附带好处,gcc将"知道"它在eax寄存器中有0 ,并且(在优化版本中)它可以重用它(想想:检查2个字符串的长度).
  5. 我也可以使用约束来初始化ecx.如上所述,不允许更改输入值.但是由于我定义ecx为输出,gcc已经知道我正在改变它.
  6. 由于ecx,eax和edi的内容都是明确指定的,因此不再需要破坏任何内容.

所有这些都使得(略微)更短和更有效的代码.

但这太荒谬了.怎么了(我能说'哎呀'吗?)你应该知道这一切吗?

如果目标是学习asm,那么使用内联asm并不是你最好的方法(实际上我会说在大多数情况下,内联asm是一个坏主意).我建议您将getStringLength声明为extern并将其完全写入asm,然后将其与您的C代码链接.

通过这种方式,您可以了解参数传递,返回值,保留寄存器(以及学习哪些寄存器必须保留以及哪些可以安全地用作划痕),堆栈帧,如何将asm与C链接等等.所有对于内联asm而言,这比gobbledygook更有用.

  • @BeeOnRope:看起来 clang 对 `"m"(*pStr)` 更保守。如果你让 `buff` 成为一个全局变量并将 `buff[4]=0` 放在 asm 之前,`buff[4]=1` 之后,那么 `"m"(*pStr)` 会停止 clang(但不是 gcc)从优化掉 `=0` 作为一个死商店。https://godbolt.org/g/F8BM22 `"m" (*(const struct {char a; char x[];} *) pStr)` 适用于两者(和 ICC,尽管 ICC 非常保守并且不即使根本没有 `"m"` 操作数,也不要认为 store 已经死了。) (2认同)