使用 rdmsr/rdpmc 提高分支预测精度

7 c x86 performancecounter papi branch-prediction

我试图了解分支预测单元如何在 CPU 中工作。

我已经使用了papilinux,perf-events但它们都没有给出准确的结果(就我而言)。

这是我的代码:

void func(int* arr, int sequence_len){
  for(int i = 0; i < sequence_len; i++){
      // region starts
      if(arr[i]){
          do_sth();
      }
      // region ends
  }
}
Run Code Online (Sandbox Code Playgroud)

我的数组由 0 和 1 组成。它有一个大小为 的图案sequence_len。例如,如果我的尺码是 8,那么它有一个图案0 1 0 1 0 0 1 1或类似的图案。

试验 1:

我试图了解 CPU 如何预测这些分支。因此,我使用 papi 并为错误预测的分支预测设置了性能计数器(我知道它也计算间接分支)。

int func(){
  papi_read(r1);
  for(){
    //... same as above
  }
  papi_read(r2);
  return r2-r1;
}

int main(){
   init_papi();
   for(int i = 0; i < 10; i++)
     res[i] = func();

   print(res[i]);
}

Run Code Online (Sandbox Code Playgroud)

我看到的输出是(对于 200 的序列长度)

void func(int* arr, int sequence_len){
  for(int i = 0; i < sequence_len; i++){
      // region starts
      if(arr[i]){
          do_sth();
      }
      // region ends
  }
}
Run Code Online (Sandbox Code Playgroud)

所以,一开始,CPU 盲目预测序列,成功率只有一半。在接下来的迭代中,CPU 可以预测得越来越好。经过一定数量的迭代后,CPU 可以完美地猜到。

试验 2

我想看看,哪个数组索引会导致 CPU 错误预测。

int* func(){
  int* results;
  for(){
    papi_read(r1);
    if(arr[i])
        do_sth();   
    papi_read(r2);
    res[i] = r2-r1;
  }
  return res;
}

int main(){
   init_papi();
   for(int i = 0; i < 10; i++)
     res[i] = func();

   print(res[i]);
}
Run Code Online (Sandbox Code Playgroud)

预期结果:

int func(){
  papi_read(r1);
  for(){
    //... same as above
  }
  papi_read(r2);
  return r2-r1;
}

int main(){
   init_papi();
   for(int i = 0; i < 10; i++)
     res[i] = func();

   print(res[i]);
}

Run Code Online (Sandbox Code Playgroud)

收到结果:

100 #iter1
40  #iter2
10  #iter3
3
0
0
#...
Run Code Online (Sandbox Code Playgroud)

我的观察

当我在 for 循环之外测量错误预测时,我可以看到 CPU 从它的错误预测中学习。但是,当我尝试测量单个分支指令的错误预测时,CPU 要么无法学习,要么测量错误。

我的解释

我给出 200 作为序列长度。CPU 有一个小的分支预测器,如 Intel 中的 2-3 位饱和计数器,以及一个大的全局分支预测器。当我在环路外进行测量时,我会在测量中引入较少的噪声。减少噪音,我的意思是papi电话。

想一想:环外测量

全球历史是: papi_start, branch_outcome1, branch_outcome2, branch_outcome3, ..., papi_end, papi_start (2nd loop of main iteration), branch_outcome1, ...

因此,分支预测器以某种方式在同一分支中找到模式。

但是,如果我尝试测量单个分支指令,那么全局历史是: papi_start, branchoutcome1, papiend, papistart, branchoutcome2, papiend...

因此,我正在向全球历史介绍越来越多的分支。我假设全局历史不能包含许多分支条目,因此,它无法在所需的 if 语句(分支)中找到任何相关性/模式。

其结果

我需要测量单个分支预测结果。我知道如果我不过多介绍papi,CPU可以学习200模式。我查看了 papi 调用,并且看到了很多 for 循环,如果条件。

这就是为什么我需要更好的测量。我试过 linuxperf-event但它会ioctl调用,这是一个系统调用,我用系统调用污染了全局历史,因此,不是一个好的度量。

我已经阅读了那个rdpmcrdmsr指令,我假设由于它们只是指令,我不会污染全局历史,并且我可以一次测量单个分支指令。

但是,我不知道如何做到这一点。我有 AMD 3600 CPU。这些是我在网上找到的链接,但我不知道如何做到这一点。除此之外,我还缺少什么吗?

英特尔 rdpmc

AMD 性能手册

Joh*_*pin 5

您已经假设 PAPI 和/或 perf_events 代码的占用空间相对较小。这是不正确的。如果您将性能计数器事件更改为“指令已停用”或“CPU 周期未停止”之类的内容,您将能够看到此操作在您的软件环境中包含多少开销。详细信息将取决于您的操作系统版本,但我预计开销将达到数百条指令/数千个周期,因为读取 perf_events 中的计数器(由 PAPI 使用)所需的内核交叉。代码路径肯定会包含它自己的分支。

如果您的内核支持“用户模式 ​​RDPMC”(CR4.PCE=1),您可以使用一条指令读取性能计数器。示例可在https://github.com/jdmccalpin/low-overhead-timers 中找到

即使将测量代码限制为本地 RDPMC 指令(以及用于保存结果的周围代码),测量也会破坏处理器管道。RDPMC 是微编码指令。在 Ryzen 内核上,指令执行 20 个微操作,每 20 个周期具有一条指令的吞吐量。(参考:https : //www.agner.org/optimize/instruction_tables.pdf

任何细粒度的测量都是具有挑战性的,因为现代处理器的乱序功能与用户代码交互的方式记录不足且难以预测。有关此主题的更多说明(也与 AMD 处理器相关)位于http://sites.utexas.edu/jdm4372/2018/07/23/comments-on-timing-short-code-sections-on-intel-processors/

  • 有关如何执行低开销性能测量的更多信息也可以在以下论文中找到:https://arxiv.org/abs/1911.03282 (2认同)

Chr*_*all 5

perf_event_open() 文档描述了如何正确使用rdpmc通过该接口创建的事件。@JohnDMcCalpin 的答案中描述的方法也有效,但它基于直接对事件控制寄存器进行编程。给定一组硬件事件,弄清楚如何在可用的硬件性能计数器上安排这些事件可能很困难。子系统perf_event为您处理这个问题,这是一个主要优点。

该子系统从Linux 3.4开始perf_event支持。rdpmc

从 开始<linux/perf_event.h>,可以进行以下操作:

  1. 准备perf_event_open()阅读计数器type = PERF_TYPE_HARDWARE config = PERF_COUNT_HW_BRANCH_MISSES

    struct perf_event_attr attr ;
    int fd ;
    
    memset(&attr, 0, sizeof(attr)) ;
    
    attr.type   = PERF_TYPE_HARDWARE ;
    attr.config = PERF_COUNT_HW_BRANCH_MISSES;
    attr.size = sizeof(attr) ;        // for completeness
    attr.exclude_kernel = 1 ;         // count user-land events
    
    perf_fd = (int)sys_perf_event_open(&attr, 0, -1, -1, PERF_FLAG_FD_CLOEXEC) ;
                                      // this pid, any cpu, no group_fd
    
    Run Code Online (Sandbox Code Playgroud)

    在哪里:

    static long
    sys_perf_event_open(struct perf_event_attr* attr,
                                  pid_t pid, int cpu, int group_fd, ulong flags)
    {
      return syscall(__NR_perf_event_open, attr, pid, cpu, group_fd, flags) ;
    }
    
    Run Code Online (Sandbox Code Playgroud)
  2. 将 perf_fd 与 mmap 页关联:

    struct perf_event_mmap_page* perf_mm ;
    
    perf_mm = mmap(NULL, page_size, PROT_READ, MAP_SHARED, perf_fd, 0) ;
    
    Run Code Online (Sandbox Code Playgroud)

    例如,page_size 可以是 4096。该缓冲区用于存储样本。请参阅文档的“溢出处理”部分。

  3. 要读取计数器,需要将其中的一些信息与perf_mm您使用指令读取的信息结合起来RDPMC,因此:

    uint64_t  offset, count ;
    uint32_t  lock, check, a, d, idx ;
    
    lock = perf_mm->lock ;
    do
      {
        check = lock ;
        __asm__ volatile("":::"memory") ;
        idx = perf_mm->index - 1 ;
        // Check that you're allowed to execute rdpmc. You can do this check once.
        // Check also that the event is currently active.
        // Starting with Linux 3.12, use cap_user_rdpmc.
        if (perf_mm->cap_user_rdpmc && idx) {
           // cap_user_rdpmc cannot change at this point because no code
           // that executes here that changes it. So it's safe.
           __asm__ volatile("\t rdpmc\n" : "=a" (a), "=d" (d) : "c" (idx)) ;
        }
        // In case of signed event counts, you have to use also pmc_width.
        // See the docs.
         offset = perf_mm->offset ;
        __asm__ volatile("":::"memory") ;
        lock = perf_mm->lock ;
      }
    while (lock != check) ;
    
    count = ((uint64_t)d << 32) + a ;
    if (perf_mm->pmc_width != 64)
      {
        // need to sign extend the perf_mm->pmc_width bits of count.
      } ;
    count += offset ;
    
    Run Code Online (Sandbox Code Playgroud)

    如果线程在“开始”和“结束”读取之间没有中断,那么我认为我们可以假设这些perf_mm内容不会改变。但如果它被中断,那么内核可以更新perf_mm内容以考虑影响此计时的任何更改。

  4. 注意:指令周围的开销RDPMC并不大,但我正在尝试将所有这些都剥离出来,看看是否可以RDPMC直接使用结果,前提是perf_mm->lock不改变。

  • 有一个 __rdpmc` 内在函数,但显然在 gcc6.5 / 7.4 / 8.3 之前它是有问题的;[在此之前它没有适当的易失性](/sf/ask/3824694051/#comment96082521_54638486)。如果你有较新的 GCC,你可以使用它;但我想内联汇编没问题。您遗漏了“rdpmc”输出的 C 变量。通常你想要 `"=a"(low_half_result)` 或其他东西。省略“(var_name)”部分是一个语法错误。 (2认同)
  • @ChrisHall它们是每个线程的,但是单个线程可以调度比硬件计数器更多的硬件事件,这会触发多路复用。这就是某些事件可以启用但不活动的方式。当然,如果您可以保证在执行时启用用户模式“rdpmc”,则可以删除“cap_user_rdpmc”。否则,代码将会崩溃。 (2认同)