相关疑难解决方法(0)

Branch Target Buffer检测到哪些分支错误预测？

我目前正在查看CPU管道的各个部分,它们可以检测分支错误预测.我发现这些是:

分支目标缓冲区(BPU CLEAR)
分支地址计算器(BA CLEAR)
跳转执行单元(这里不确定信号名称？)

我知道2和3检测到了什么,但我不明白在BTB中检测到了什么错误预测.BAC检测BTB错误地预测非分支指令的分支的位置,其中BTB未能检测到分支,或者BTB错误预测了x86 RET指令的目标地址.执行单元评估分支并确定它是否正确.

在分支目标缓冲区中检测到什么类型的错误预测？究竟在这里发现了什么错误预测？

我能找到的唯一线索是英特尔开发者手册第3卷(底部的两个BPU CLEAR事件计数器):

在此输入图像描述

BPU在错误地认为未采取分支后预测了一个分支.

这似乎暗示预测并非"同步",而是"异步",因此"在错误地假设"之后？

更新:

Ross,这是CPU分支电路,来自最初的英特尔专利(如何用于"阅读"？):

在此输入图像描述

我在任何地方都看不到"分支预测单位"？读过这篇论文的人会认为"BPU"是将BTB电路,BTB缓存,BAC和RSB分组在一起的懒惰方式吗？

所以我的问题仍然存在,哪个组件会引发BPU CLEAR信号？

optimization intel cpu-architecture computer-architecture branch-prediction

use*_*112

2015 07-13

10
推荐指数

2
解决办法

1080
查看次数

为什么英特尔这些年来改变了静态分支预测机制？

从这里我知道英特尔近年来实施了几种静态分支预测机制:

80486年龄:永远不被采取
Pentium4年龄:未采取后退/前锋
像Ivy Bridge,Haswell这样的新型CPU变得越来越无形,请参阅Matt G的实验.

英特尔似乎不想再谈论它,因为我在英特尔文档中找到的最新资料大约是十年前写的.

我知道静态分支预测(远远不是)比动态更重要,但在很多情况下,CPU将完全丢失,程序员(使用编译器)通常是最好的指南.当然,这些情况通常不是性能瓶颈,因为一旦频繁执行分支,动态预测器就会捕获它.

由于英特尔不再在其文档中明确声明动态预测机制,因此GCC的builtin_expect()只能从热路径中删除不太可能的分支.

我不熟悉CPU的设计,我不知道究竟是什么机制,目前英特尔使用其静态预测,但我还是觉得英特尔的最佳机制应该清楚地记录他的CPU",我打算去当动态预测失败,向前或向后',因为通常程序员是当时最好的指南.

更新:
我发现你提到的主题逐渐超出我的知识范围.这里涉及一些动态预测机制和CPU内部细节,我在两三天内无法学习.所以请允许我暂时退出你的讨论并充电.
这里仍然欢迎任何答案,也许会帮助更多人

compiler-construction x86 intel cpu-architecture branch-prediction

wei*_*huo

2018 08-14

9
推荐指数

3
解决办法

1637
查看次数

在x86机器代码中调用绝对指针

什么是callx86机器代码中绝对指针的"正确"方法？有没有一种方法可以在一条指令中完成它？

我想做什么:

我正在尝试基于"子程序线程"构建一种简化的迷你JIT(仍然).它基本上是字节码解释器中最短的步骤:每个操作码都是作为一个单独的函数实现的,因此每个基本的字节码块都可以"JIT"到它自己的新程序中,如下所示:

{prologue}
call {opcode procedure 1}
call {opcode procedure 2}
call {opcode procedure 3}
...etc
{epilogue}

Run Code Online (Sandbox Code Playgroud)

因此,我们的想法是每个块的实际机器代码只能从模板中粘贴(根据需要扩展中间部分),并且需要"动态"处理的唯一位是将每个操作码的函数指针复制到正确的位置作为每个调用指令的一部分.

我遇到的问题是了解call ...模板部分的用途.x86似乎没有考虑到这种用法,并且有利于相对和间接调用.

它看起来像我可以使用FF 15 EFBEADDE或2E FF 15 EFBEADDE在假设调用函数DEADBEEF(通过把东西变成一个汇编和反汇编,看到什么产生有效的结果,基本上发现了这些未通过了解他们在做什么),但我不理解的东东细分,特权和相关信息足以看出差异,或者这些信息与更常见的call指令有何不同.英特尔架构手册还建议这些仅在32位模式下有效,在64位模式下"无效".

有人可以解释这些操作码以及我是如何或者是否会为此目的使用它们或其他人？

(通过寄存器使用间接调用也有明显的答案,但这似乎是"错误的"方法 - 假设实际存在直接调用指令.)

x86 jit machine-code

Leu*_*nko

lucky-day

7
推荐指数

2
解决办法

4148
查看次数

在x86-64中使用32位寄存器/指令的优点

有时gcc使用32位寄存器,当我希望它使用64位寄存器时.例如以下C代码:

unsigned long long 
div(unsigned long long a, unsigned long long b){
    return a/b;
}

Run Code Online (Sandbox Code Playgroud)

使用-O2选项编译(省略一些样板文件):

div:
    movq    %rdi, %rax
    xorl    %edx, %edx
    divq    %rsi
    ret

Run Code Online (Sandbox Code Playgroud)

对于无符号除法,寄存器%rdx需要0.这可以通过xorq %rdx, %rdx但xorl %edx, %edx似乎具有相同的效果来实现.

至少在我的机器上没有性能提升(即加速)进行xorl了xorq.

我实际上不只是一个问题:

为什么gcc更喜欢32位版本？
为什么gcc会停止xorl并且不使用xorw？
有没有xorl比这更快的机器xorq？
如果可能的话,总是更喜欢32位寄存器/操作而不是64位寄存器/操作吗？

assembly gcc x86-64 micro-optimization

ead*_*ead

2019 10-28

7
推荐指数

2
解决办法

749
查看次数

现代CPU中的小分支

像Kaby Lake这样的现代CPU如何处理小分支？(在下面的代码中是跳转到标签LBB1_67).据我所知,分支不会有害,因为跳转不如16字节块大小,这是解码窗口的大小.

或者是否有可能由于某些宏观操作融合,分支将被完全省略？

        sbb     rdx, qword ptr [rbx - 8]
        setb    r8b
        setl    r9b
        mov     rdi, qword ptr [rbx]
        mov     rsi, qword ptr [rbx + 8]
        vmovdqu xmm0, xmmword ptr [rbx + 16]
        cmp     cl, 18
        je      .LBB1_67
        mov     r9d, r8d
.LBB1_67:                               #   in Loop: Header=BB1_63 Depth=1
        vpcmpeqb        xmm0, xmm0, xmmword ptr [rbx - 16]
        vpmovmskb       ecx, xmm0
        cmp     ecx, 65535
        sete    cl
        cmp     rdi, qword ptr [rbx - 32]
        sbb     rsi, qword ptr [rbx - 24]
        setb    dl
        and …

Run Code Online (Sandbox Code Playgroud)

performance x86-64 cpu-architecture avx branch-prediction

Str*_*ger

2019 03-03

7
推荐指数

1
解决办法

150
查看次数

如何执行具有 64 位绝对地址的调用指令？

我正在尝试从机器代码调用一个函数 - 在编译和链接时应该有一个绝对地址。我正在创建一个指向所需函数的函数指针，并试图将其传递给 call 指令，但我注意到 call 指令最多占用 16 位或 32 位地址。有没有办法调用绝对 64 位地址？

我正在部署 x86-64 架构并使用 NASM 生成机器代码。

如果我可以保证可执行文件肯定会映射到内存的底部 4GB，我可以使用 32 位地址，但我不确定在哪里可以找到该信息。

编辑：我不能使用 callf 指令，因为这需要我禁用 64 位模式。

第二次编辑：我也不想将地址存储在寄存器中并调用寄存器，因为这对性能至关重要，而且我无法承受间接函数调用的开销和性能影响。

最终编辑：通过确保我的机器代码映射到前 2GB 内存，我能够使用 rel32 调用指令。这是通过带有 MAP_32BIT 标志的 mmap 实现的（我使用的是 linux）：

MAP_32BIT (自 Linux 2.4.20, 2.6) 将映射放入进程地址空间的前 2 GB。对于 64 位程序，此标志仅在 x86-64 上受支持。添加它是为了允许在前 2GB 内存中的某处分配线程堆栈，以提高某些早期 64 位处理器上的上下文切换性能。现代 x86-64 处理器不再具有此功能？形式问题，因此在这些系统上不需要使用此标志。设置 MAP_FIXED 时，将忽略 MAP_32BIT 标志。

assembly jit x86-64 nasm function-call

Ale*_*sky

2020 06-02

5
推荐指数

1
解决办法

7292
查看次数

两个可熔断对可以在同一时钟周期内解码吗？

我正在尝试使用我的 Intel i7-10700 和 ubuntu 20.04 来验证两个可熔断对可以在同一时钟周期内解码的结论。

测试代码排列如下，复制了8000次左右，以避免LSD和DSB的影响（主要使用MITE）。

ALIGN 32
.loop_1:
    dec ecx
    jge .loop_2
.loop_2:
    dec ecx
    jge .loop_3
.loop_3:
    dec ecx
    jge .loop_4
.loop_4:
.loop_5:
    dec ecx
    jge .loop_6

Run Code Online (Sandbox Code Playgroud)

测试结果表明，单个循环中仅融合一对。( r479 div r1002479 )

 Performance counter stats for process id '22597':

   120,459,876,711      cycles                                                      
    35,514,146,968      instructions     #    0.29  insn per cycle         
    17,792,584,278      r479             # r479: Number of uops delivered                     
                                         # to Instruction Decode Queue (IDQ) from MITE path                                  
        50,968,497      r4002479        
                                         
                                                  
    17,756,894,879      r1002479         # r1002479: Cycles MITE is …

Run Code Online (Sandbox Code Playgroud)

cpu x86 assembly intel cpu-architecture

moe*_*ep0

2021 11-12

5
推荐指数

1
解决办法

242
查看次数