相关疑难解决方法(0)

为memcpy增强了REP MOVSB

我想使用增强的REP MOVSB(ERMSB)为自定义获得高带宽memcpy.

ERMSB引入了Ivy Bridge微体系结构.如果您不知道ERMSB是什么,请参阅英特尔优化手册中的"增强型REP MOVSB和STOSB操作(ERMSB)" 部分.

我知道直接执行此操作的唯一方法是使用内联汇编.我从https://groups.google.com/forum/#!topic/gnu.gcc.help/-Bmlm_EG_fE获得了以下功能

static inline void *__movsb(void *d, const void *s, size_t n) {
  asm volatile ("rep movsb"
                : "=D" (d),
                  "=S" (s),
                  "=c" (n)
                : "0" (d),
                  "1" (s),
                  "2" (n)
                : "memory");
  return d;
}

Run Code Online (Sandbox Code Playgroud)

然而,当我使用它时,带宽远小于memcpy. 使用我的i7-6700HQ(Skylake)系统,Ubuntu 16.10,DDR4 @ 2400 MHz双通道32 GB,GCC 6.2,__movsb获得15 GB/s并memcpy获得26 GB/s.

为什么带宽如此低REP MOVSB？我该怎么做才能改善它？

这是我用来测试它的代码.

//gcc -O3 -march=native -fopenmp foo.c
#include <stdlib.h>
#include <string.h>
#include <stdio.h>
#include …

Run Code Online (Sandbox Code Playgroud)

c x86 assembly gcc memcpy

Z b*_*son

2017 04-26

56
推荐指数

4
解决办法

1万
查看次数

如何解释 Xeon 处理器在具有顺序复制和分散存储的循环中性能不佳？

c++在某些英特尔至强处理器上运行以下代码时，我偶然发现了一个特殊的性能问题：

// array_a contains permutation of [0, n - 1]
// array_b and inverse are initialized arrays
for (int i = 0; i < n; ++i) {
  array_b[i] = array_a[i];
  inverse[array_b[i]] = i;
}

Run Code Online (Sandbox Code Playgroud)

循环的第一行按顺序复制array_a到array_b（预期很少有缓存未命中）。第二行计算array_b（许多缓存未命中，因为array_b是随机排列）的倒数。我们也可以将代码分成两个单独的循环：

for (int i = 0; i < n; ++i)
  array_b[i] = array_a[i];
for (int i = 0; i < n; ++i)
  inverse[array_b[i]] = i;

Run Code Online (Sandbox Code Playgroud)

我原以为这两个版本（单循环与双循环）在相对现代的硬件上的性能几乎相同。但是，在执行单循环版本时，某些 Xeon 处理器似乎非常慢。

您可以在下方看到以纳秒为单位n的挂机时间除以在一系列不同处理器上运行代码段的时间。出于测试目的，代码是使用 GCC 7.5.0 编译的，并-O3 -funroll-loops -march=native …

performance intel cpu-architecture cpu-cache amd-processor

Jon*_*ert

2020 09-09

14
推荐指数

1
解决办法

408
查看次数

标签统计

amd-processor ×1

assembly ×1

c ×1

cpu-architecture ×1

cpu-cache ×1

gcc ×1

intel ×1

memcpy ×1

performance ×1

x86 ×1

为memcpy增强了REP MOVSB

如何解释 Xeon 处理器在具有顺序复制和分散存储的循环中性能不佳？

标签 统计

标签统计