使用短字符串优化似乎比 gcc 9.4.0 中的分配慢

chi*_*ice 5 c++ g++

我正在测试下面的代码

#include <string>
int main(int argc, const char *argv[])
{
    const size_t size = strtoull(argv[1], nullptr, 10);
    for (int i = 0; i < 100000000; ++i)
    {
        std::string str;
        str.reserve(size);
        for (size_t j = 0; j < size; ++j)
        {
            str += 'x';
        }
    }
    return 0;
}
Run Code Online (Sandbox Code Playgroud)

我用-O3编译它

g++ string-append.cpp -O3 -o string-append
Run Code Online (Sandbox Code Playgroud)

现在,当使用参数运行时,15程序看起来比使用参数运行时慢16

$ time ./string-append 15

real    0m4.342s
user    0m4.342s
sys     0m0.000s

$ time ./string-append 16

real    0m3.112s
user    0m3.112s
sys     0m0.000s
Run Code Online (Sandbox Code Playgroud)

我已经通过 valgrind 验证::
15没有字符串分配
16:100M 分配和 100M 释放

使用打印输出我验证了::
15str.c_str()总是返回相同的地址
16:str.c_str()每次都返回不同的地址

使用 perf 我验证了它16可以提供更多:

  • L1 缓存加载
  • L1 缓存存储
  • L1 缓存未命中
  • 分支机构
  • 分支未命中
  • 说明(几乎多了两倍)

代码对于大小而言运行速度更快的原因是什么16

编译器是gcc版本9.4.0。

$ g++ -v
Using built-in specs.
COLLECT_GCC=g++
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/9/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:hsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 9.4.0-1ubuntu1~20.04.1' --with-bugurl=file:///usr/share/doc/gcc-9/README.Bugs --enable-languages=c,ada,c++,go,brig,d,fortran,objc,obj-c++,gm2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-9 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-offload-targets=nvptx-none=/build/gcc-9-Av3uEd/gcc-9-9.4.0/debian/tmp-nvptx/usr,hsa --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 9.4.0 (Ubuntu 9.4.0-1ubuntu1~20.04.1)
Run Code Online (Sandbox Code Playgroud)

检查了 Clang13 - 似乎没有这个问题。