g++ -O3 为循环创建奇怪的指令

Question

g++ -O3 为循环创建奇怪的指令

Har*_*ong 7 c++ g++ compiler-optimization

我正在使用 C++ 编写一些用于数值计算的代码。我需要非常仔细地编写代码来帮助编译器生成好的指令。然后，我发现带有 -O3 标志的 g++ 9.2 有些奇怪。我不是组装专家，所以我需要有人帮助我或指出我错在哪里。

完整代码可以在这里找到https://godbolt.org/z/fyuYtq。我在这里复制并粘贴关键片段

void sum_twopointer(Elem *p1, Elem *p2, ptrdiff_t stride, ptrdiff_t start, ptrdiff_t end) {

    Elem sm = 0;
    for(auto i = start;i != end; ++i) {
        p1[0] = p2[0] + p2[0];
        p1 += stride;
        p2 += stride;
    }

}

Run Code Online (Sandbox Code Playgroud)

它是用g++ -O3. g++ 的版本是 9.2。汇编代码是

sum_twopointer(double*, double*, long, long, long):
  cmp rcx, r8
  je .L32
  lea r9, [0+rdx*8]
  xor eax, eax
  cmp rdx, 1
  jne .L36
.L34:
  movsd xmm0, QWORD PTR [rsi+rax]
  add rcx, 1
  addsd xmm0, xmm0
  movsd QWORD PTR [rdi+rax], xmm0
  add rax, r9
  cmp r8, rcx
  jne .L34
.L32:
  ret
.L36:
  movsd xmm0, QWORD PTR [rsi+rax]
  add rcx, 1
  addsd xmm0, xmm0
  movsd QWORD PTR [rdi+rax], xmm0
  add rax, r9
  cmp r8, rcx
  jne .L36
  ret

Run Code Online (Sandbox Code Playgroud)

据我了解，编译器正在尝试对 stride 仅为 1 的特殊情况进行一些优化，因此它为 stride==1 的情况创建了一个新分支，但它没有做任何进一步的事情。请注意，.L34 之后的代码与 .L36 之后的代码完全相同。

我为此做了一些基准测试。下面列出了 stride=1 和 stride=2 的性能。代码在那里https://gist.github.com/lhprojects/dac3a9fcf15bd5b1ec365ba6a87c679d

g++ -O2
---------------------------------------------------------------
Benchmark                     Time             CPU   Iterations
---------------------------------------------------------------
BM_twopointer/8192/1       3743 ns         3742 ns       185062      stride=1
BM_twopointer/8192/2       1980 ns         1980 ns       328523      stride=2

g++ -O3
---------------------------------------------------------------
Benchmark                     Time             CPU   Iterations
---------------------------------------------------------------
BM_twopointer/8192/1       5006 ns         5001 ns       120725      stride=1
BM_twopointer/8192/2       2043 ns         2041 ns       333914      stride=2

Run Code Online (Sandbox Code Playgroud)

无论如何，对于stride=1，与-O2 相比，-O3 的性能会变差。我想知道我的代码发生了什么。我是否在 C++ 中触发了一些未定义的行为？或者干脆就是g++代码优化存在缺陷。（如果我的英文写作让你感到很困惑，我很抱歉。）

Answer 1

小智 0

我相信编译器需要知道 p1 和 p2 不重叠...将它们声明为 __restrict 指针应该允许编译器实际利用 simd 指令。对我来说，这确实很奇怪，它会为 stride==1 创建一个特殊情况，但随后不会利用这些知识做任何事情。

归档时间：	6 年，1 月前
查看次数：	110 次
最近记录：	6 年前