为什么 GCC 不能为两个 int32s 的结构生成最佳 operator==?

Ben*_*Ben 86 c++ gcc x86-64 micro-optimization compiler-optimization

一位同事向我展示了我认为没有必要的代码,但果然,确实如此。我希望大多数编译器会将所有这三种相等性测试的尝试视为等效的:

#include <cstdint>
#include <cstring>

struct Point {
    std::int32_t x, y;
};

[[nodiscard]]
bool naiveEqual(const Point &a, const Point &b) {
    return a.x == b.x && a.y == b.y;
}

[[nodiscard]]
bool optimizedEqual(const Point &a, const Point &b) {
    // Why can't the compiler produce the same assembly in naiveEqual as it does here?
    std::uint64_t ai, bi;
    static_assert(sizeof(Point) == sizeof(ai));
    std::memcpy(&ai, &a, sizeof(Point));
    std::memcpy(&bi, &b, sizeof(Point));
    return ai == bi;
}

[[nodiscard]]
bool optimizedEqual2(const Point &a, const Point &b) {
    return std::memcmp(&a, &b, sizeof(a)) == 0;
}


[[nodiscard]]
bool naiveEqual1(const Point &a, const Point &b) {
    // Let's try avoiding any jumps by using bitwise and:
    return (a.x == b.x) & (a.y == b.y);
}
Run Code Online (Sandbox Code Playgroud)

但令我惊讶的是,只有那些带有memcpy或被memcmpGCC 转换为单个 64 位比较的。为什么?( https://godbolt.org/z/aP1ocs )

对于优化器来说,如果我检查连续的四个字节对上的相等性,这与比较所有八个字节是否相同,这不是很明显吗?

尝试避免将两部分单独布尔化会更有效地编译(少一条指令并且没有对 EDX 的错误依赖),但仍然是两个单独的 32 位操作。

bool bithackEqual(const Point &a, const Point &b) {
    // a^b == 0 only if they're equal
    return ((a.x ^ b.x) | (a.y ^ b.y)) == 0;
}
Run Code Online (Sandbox Code Playgroud)

GCC 和 Clang 在按传递结构时都有相同的遗漏优化(a在 RDI 和bRSI 中也是如此,因为这是 x86-64 System V 的调用约定将结构打包到寄存器中的方式):https : //godbolt.org/z/ v88a6s。memcpy / memcmp 版本都编译为cmp rdi, rsi / sete al,但其他版本执行单独的 32 位操作。

struct alignas(uint64_t) Point令人惊讶的是,在参数在寄存器中的按值情况下仍然有帮助,优化 GCC 的两个 naiveEqual 版本,但不是 bithack XOR/OR。(https://godbolt.org/z/ofGa1f)。这是否给我们提供了有关 GCC 内部结构的任何提示?对齐对 Clang 没有帮助。

Jar*_*d42 47

If you "fix" the alignment, all give the same assembly language output (with GCC):

struct alignas(std::int64_t) Point {
    std::int32_t x, y;
};
Run Code Online (Sandbox Code Playgroud)

Demo

As a note, some correct/legal ways to do some stuff (as type punning) is to use memcpy, so having specific optimization (or be more aggressive) when using that function seems logical.

  • 这是一个有趣的观察,但我不认为它回答了“为什么?” _为什么这些有效、简单且等效的函数会产生不同的程序集?_ (16认同)
  • @AyxanHaqverdili:保证对齐意味着优化更加有利可图:使用单个 64 位加载时不会出现缓存行拆分。这可能会让优化器更加努力,或者将启发式方法推向某个盈利阈值。但不知道是哪一个,这个答案只是一个有用的观察和解决方法,而不是真正的答案。 (16认同)
  • 那么,为什么对齐在这里很重要呢?为什么编译器不能手动进行OP优化? (10认同)
  • 那么...为什么memcpy版本不需要对齐呢?编译器通过 memcpy 看到它,它将未对齐的结构复制到寄存器......这是一个缺少对齐以某种方式推动的编译器优化吗? (6认同)
  • 但 memcpy 不假设对齐...所以 optimizationEqual 不假设 Point 过度对齐 (5认同)
  • 你可以只写“alignas(std::uint64_t)”。 (3认同)
  • @Ben 加载 8 字节的 4 字节对齐块或 8 字节对齐块是否更昂贵取决于处理器,但一般答案是肯定的。在 x86/x64 上,允许未对齐的读取速度变慢(基本上将它们变成一对读取)。在某些架构上(比如 68000,如果我记得的话),未对齐读取是非法的,会生成“总线异常”。 (2认同)

EOF*_*EOF 32

将其作为单个 64 位比较实现时,您可能会遇到性能悬崖:

你打破商店加载转发。

如果结构体中的 32 位数字通过单独的存储指令写入内存,然后使用 64 位加载指令快速从内存加载回(在存储达到 L1$ 之前),您的执行将停止,直到存储提交到全局可见缓存一致 L1$。如果加载是与之前的 32 位存储匹配的 32 位加载,现代 CPU 将通过在存储到达缓存之前将存储的值转发到加载指令来避免存储加载停顿。如果多个 CPU 访问内存(一个 CPU 以与其他 CPU 不同的顺序查看自己的存储),这会违反顺序一致性,但大多数现代 CPU 架构,甚至 x86 都允许这样做。转发还允许完全推测性地执行更多代码,因为如果必须回滚执行,

如果您希望它使用 64 位操作并且您不希望出现这种性能悬崖,您可能希望确保该结构也始终为单个 64 位数字。

  • 为什么这种情况会随着对齐而改变? (2认同)
  • *您的执行将停止,直到存储提交到全局可见的缓存一致性 L1$* - 不完全是。有证据表明,现代 x86 CPU 上的存储转发停顿不必等待提交,它只需要对存储缓冲区进行更慢、更完整的扫描,还可能与来自 L1d 的数据合并。[现代 x86 实现能否从多个先前存储进行存储转发?](/sf/answers/3230172851/) 有关该证据的更多详细信息。这也不是管道停顿,OoO exec 可能能够隐藏延迟。但是,是的,好的一点,通常是要避免的。 (2认同)
  • 但是 IIRC,GCC 开发人员告诉我,GCC 对存储转发停顿一无所知,也不会积极尝试避免它们。(开发人员确实如此,因此这并不排除调整一些启发式方法以实现更广泛负载的成本/收益。) (2认同)

eer*_*ika 21

为什么编译器不能生成[与memcpy版本相同的程序集]?

编译器“可以”在它被允许的意义上。

编译器根本就没有。为什么它不超出我的知识范围,因为这需要深入了解优化器是如何实现的。但是,答案可能从“没有涵盖这种转换的逻辑”到“规则没有调整为假设一个输出比另一个更快”在所有目标 CPU 上。

如果您使用 Clang 而不是 GCC,您会注意到它为naiveEqualand产生相同的输出,naiveEqual1并且该程序集没有跳转。除了使用两条 32 位指令代替一条 64 位指令外,它与“优化”版本相同。此外Point,Jarod42 的回答中显示的限制对齐对优化器没有影响。

MSVC 的行为类似于 Clang,因为它不受对齐的影响,但不同的是它没有摆脱naiveEqual.

就其价值而言,编译器(我检查了 GCC 和 Clang)为 C++20 默认比较产生了与naiveEqual. 无论出于何种原因,GCC 选择使用jne而不是je用于跳转。

这是缺少编译器优化吗

假设在目标 CPU 上一个总是比另一个快,这将是一个公平的结论。

  • clang 与 `-march=tigerlake` 使用 SSE。 (3认同)
  • 另外有趣的是:当我用 `std::tuple&lt;std::int32_t, std::int32_t&gt;` 或 `std::pair&lt;std::int32_t, std::int32_t&gt;` 替换我的 `Point` 时,我得到相同的结果行为...但是 `std::array&lt;std::int32_t, 2&gt;` 是单个比较,即使所有三个(通常,我期望!)内存中的相同位具有相同的对齐方式。 (3认同)
  • @Ben gcc 进行了数组优化,但 clang 没有...... (3认同)
  • @supercat:正如我[评论](/sf/ask/4638428441/?noredirect =1#comment117192100_66263393) 在该线程中,这是不正确的。与相对于指针的单独索引不同,C 结构体是全有或全无的。访问“ax”保证“ay”可访问。 (2认同)
  • @supercat:这里怎么有问题?如果前 32 位不匹配,则无论您在第 2 个 32 位中读取什么垃圾,“==”比较都将为 false。x86 没有硬件竞争检测,因此不会出现故障。或者您是在谈论其他 ISA 上假设的不良情况,GCC 的目标独立优化在没有正确检查目标是否无法进行竞争检测的情况下执行此操作?GCC 是否支持任何具有硬件竞争检测的目标? (2认同)
  • @supercat:我知道您在严格别名或签名溢出等问题上所采取的论点/立场。但我不明白它在这里如何应用。您认为“struct Point &amp;”引用应该有可能指向仅存在一半的对象,即扩展到未映射的页面?(或者你还在谈论数据竞争吗?)未映射的页面参数对于“struct Point *”指针来说是有意义的(尽管实际上这不是 C 的工作方式),但调用者必须有一个指向部分的指针-呈现结构,并执行`foo(*p)`,它看起来像整个事情。 (2认同)