为什么strlen()的实现有效?

20 c undefined-behavior

(声明:我已经看到了这个问题,我不是重新问了-我很感兴趣,为什么代码工作,而不是如何它的工作原理.)

所以,这里的这个实现苹果的(当然,FreeBSD的)strlen().它使用一个众所周知的优化技巧,即它一次检查4或8个字节,而不是与0进行逐字节比较:

size_t strlen(const char *str)
{
    const char *p;
    const unsigned long *lp;

    /* Skip the first few bytes until we have an aligned p */
    for (p = str; (uintptr_t)p & LONGPTR_MASK; p++)
        if (*p == '\0')
            return (p - str);

    /* Scan the rest of the string using word sized operation */
    for (lp = (const unsigned long *)p; ; lp++)
        if ((*lp - mask01) & mask80) {
        p = (const char *)(lp);
        testbyte(0);
        testbyte(1);
        testbyte(2);
        testbyte(3);
#if (LONG_BIT >= 64)
        testbyte(4);
        testbyte(5);
        testbyte(6);
        testbyte(7);
#endif
    }

    /* NOTREACHED */
    return (0);
}
Run Code Online (Sandbox Code Playgroud)

现在我的问题是:也许我错过了明显的,但这不能读过字符串的结尾吗?如果我们有一个长度不能被字大小整除的字符串怎么办?想象一下以下场景:

|<---------------- all your memories are belong to us --------------->|<-- not our memory -->
+-------------+-------------+-------------+-------------+-------------+ - -
|     'A'     |     'B'     |     'C'     |     'D'     |      0      |
+-------------+-------------+-------------+-------------+-------------+ - -
^                                                      ^^
|                                                      ||
+------------------------------------------------------++-------------- - -
                       long word #1                      long word #2
Run Code Online (Sandbox Code Playgroud)

当读取第二个长字时,程序访问实际上不应该访问的字节...这不是错误的吗?我非常有信心Apple和BSD的人都知道他们在做什么,所以有人可以解释为什么这是正确的吗?

我注意到的一件事是啤酒男孩认为这是未定义的行为,我也相信它确实是,但他被告知它不是,因为"我们用字符串大小与初始for循环对齐"(未显示)这里).但是,我根本没有看到为什么如果数组不够长并且我们正在读取它的末尾,那么对齐将是任何相关的.

Sne*_*tel 21

虽然这在技术上是未定义的行为,但实际上没有本机架构以比字大小更精细的粒度检查越界内存访问.因此,虽然通过终结器的垃圾可能最终被读取,但结果不会是崩溃.

  • @Jongware`strlen()`.我不怀疑它是否适用于实际的,特定的实现,*尽管*是UB,但仅限于这种情况,因为标准库的编写者对他们正在使用的平台和/或编译器有深入的了解.从某种意义上说,库/其他实现代码可以依赖于UB的某些方面,但用户代码永远不会这样做. (9认同)
  • @Jongware:该实现有额外的保证,标准没有强制要求,并在strlen()的_internal_实现中滥用它们.你不关心strlen()是如何在内部实现的,你使用标准承诺你保留strlen()的保证. (9认同)
  • @Jongware:它_is_ UB:你_cannot_采取该代码并将其移动到任意架构,最明显的是一个!MMU(非基于页面的)架构,其中一个字符串可能在数据段的末尾结束,可能有一个在MPU设置的字节粒度限制. (6认同)
  • @Jongware事实上,读取未初始化的变量,例如,本身就是未定义的行为,因此访问数组越界. (5认同)
  • @Jongware对你来说"听起来不错"不需要同意标准中的内容.标准说它是UB,所以它是UB,期间. (5认同)
  • 不,因为每个被读取的单词都保证至少部分在数组中,因此不会被捕获. (4认同)
  • 这就是为什么FreeBSD开发人员使用非常具体的编译器来构建FreeBSD的原因:所有"UB"部分实际上都有(实现)定义的行为,他们可以依赖. (3认同)
  • 我猜它可能会崩溃,如果碰巧在保护页面的边界? (2认同)