相关疑难解决方法(0)

Haswell/Skylake的部分寄存器究竟如何表现？写AL似乎对RAX有假依赖,而AH是不一致的

此循环在英特尔Conroe/Merom上每3个周期运行一次,imul按预期方式在吞吐量方面存在瓶颈.但是在Haswell/Skylake上,它每11个循环运行一次,显然是因为setnz al它依赖于最后一个循环imul.

; synthetic micro-benchmark to test partial-register renaming
    mov     ecx, 1000000000
.loop:                 ; do{
    imul    eax, eax     ; a dep chain with high latency but also high throughput
    imul    eax, eax
    imul    eax, eax

    dec     ecx          ; set ZF, independent of old ZF.  (Use sub ecx,1 on Silvermont/KNL or P4)
    setnz   al           ; ****** Does this depend on RAX as well as ZF?
    movzx   eax, al
    jnz  .loop         ; }while(ecx);

Run Code Online (Sandbox Code Playgroud)

如果setnz al …

x86 assembly intel cpu-architecture micro-optimization

Pet*_*des

2017 08-21

30
推荐指数

2
解决办法

1537
查看次数

在执行uop计数不是处理器宽度倍数的循环时性能是否会降低？

我想知道各种大小的循环如何在最近的x86处理器上执行,作为uop数的函数.

以下是彼得·科德斯(Peter Cordes)的一句话,他在另一个问题中提出了非多数的问题:

我还发现,如果循环不是4 uop的倍数,则循环缓冲区中的uop带宽不是每个循环的常数4.(即它是abc,abc,......;不是abca,bcab,......).遗憾的是,Agner Fog的microarch doc对循环缓冲区的这种限制并不清楚.

问题是关于循环是否需要是N uop的倍数才能以最大uop吞吐量执行,其中N是处理器的宽度.(即最近的英特尔处理器为4).在谈论"宽度"和计算微动时,有很多复杂因素,但我大多想忽略这些因素.特别是,假设没有微观或宏观融合.

Peter给出了以下一个循环,其中包含7个uop的循环:

一个7-uop循环将发出4 | 3 | 4 | 3 | ...的组我没有测试更大的循环(不适合循环缓冲区),看看是否有可能从下一个指令开始迭代发布在与其分支相同的组中,但我不假设.

更一般地说,声称是x在其体内具有uops 的循环的每次迭代将至少进行ceil(x / 4)迭代,而不是简单地迭代x / 4.

对于部分或全部最新的x86兼容处理器,这是真的吗？

performance x86 assembly cpu-architecture micro-optimization

Bee*_*ope

2017 08-30

20
推荐指数

2
解决办法

2048
查看次数

当跳转在 32 字节上没有完全对齐时，使用 MITE（传统管道）代替 DSB（uop 缓存）

这个问题曾经是这个（现已更新）问题的一部分，但它似乎应该是另一个问题，因为它无助于获得另一个问题的答案。

我的出发点是一个循环进行 3 个独立的添加：

for (unsigned long i = 0; i < 2000000000; i++) {
    asm volatile("" : "+r" (a), "+r" (b), "+r" (c), "+r" (d)); // prevents C compiler from optimizing out adds
    a = a + d;
    b = b + d;
    c = c + d;
}

Run Code Online (Sandbox Code Playgroud)

当这个循环没有展开时，它在 1 个周期内执行（这是预期的：它包含 4 条指令：3 个加法和宏融合增量/跳转；所有这些都可以在端口 0 上在一个周期内执行， 1、5 和 6）。展开此循环时，性能令人惊讶，并且往往比未展开的版本慢 25%，这可能是由于 uops 调度，如上一个问题的评论中所建议的。

在这个问题中，我不是在问性能，而是在问为什么在某些情况下，uop 来自 MITE（传统管道），而在其他情况下，来自 DSB（uop 缓存）。（请注意，我使用的是禁用 LSD（循环流检测器）的 Skylake）

实验上，当跳转在 32 字节上没有完全对齐时，uop 是从 MITE …

performance x86 assembly intel

Dad*_*ada

lucky-day

6
推荐指数

1
解决办法

205
查看次数