相关疑难解决方法(0)

为memcpy增强了REP MOVSB

我想使用增强的REP MOVSB(ERMSB)为自定义获得高带宽memcpy.

ERMSB引入了Ivy Bridge微体系结构.如果您不知道ERMSB是什么,请参阅英特尔优化手册中的"增强型REP MOVSB和STOSB操作(ERMSB)" 部分.

我知道直接执行此操作的唯一方法是使用内联汇编.我从https://groups.google.com/forum/#!topic/gnu.gcc.help/-Bmlm_EG_fE获得了以下功能

static inline void *__movsb(void *d, const void *s, size_t n) {
  asm volatile ("rep movsb"
                : "=D" (d),
                  "=S" (s),
                  "=c" (n)
                : "0" (d),
                  "1" (s),
                  "2" (n)
                : "memory");
  return d;
}

Run Code Online (Sandbox Code Playgroud)

然而,当我使用它时,带宽远小于memcpy. 使用我的i7-6700HQ(Skylake)系统,Ubuntu 16.10,DDR4 @ 2400 MHz双通道32 GB,GCC 6.2,__movsb获得15 GB/s并memcpy获得26 GB/s.

为什么带宽如此低REP MOVSB？我该怎么做才能改善它？

这是我用来测试它的代码.

//gcc -O3 -march=native -fopenmp foo.c
#include <stdlib.h>
#include <string.h>
#include <stdio.h>
#include …

Run Code Online (Sandbox Code Playgroud)

c x86 assembly gcc memcpy

Z b*_*son

2017 04-26

56
推荐指数

4
解决办法

1万
查看次数

如何指示可以使用内联ASM参数指向的内存？

考虑以下小功能：

void foo(int* iptr) {
    iptr[10] = 1;
    __asm__ volatile ("nop"::"r"(iptr):);
    iptr[10] = 2;
}

Run Code Online (Sandbox Code Playgroud)

使用gcc，它将编译为：

foo:
        nop
        mov     DWORD PTR [rdi+40], 2
        ret

Run Code Online (Sandbox Code Playgroud)

请特别注意，即在第一次写iptr，iptr[10] = 1根本不会发生：内联汇编nop是在函数的第一件事，只有最后写2（会出现ASM呼叫后）。显然，编译器决定只需要提供其iptr 自身值的最新版本，而不需要提供其指向的内存。

我可以告诉编译器，内存必须是最新的memory，就像这样：

void foo(int* iptr) {
    iptr[10] = 1;
    __asm__ volatile ("nop"::"r"(iptr):"memory");
    iptr[10] = 2;
}

Run Code Online (Sandbox Code Playgroud)

结果为预期的代码：

foo:
        mov     DWORD PTR [rdi+40], 1
        nop
        mov     DWORD PTR [rdi+40], 2
        ret

Run Code Online (Sandbox Code Playgroud)

但是，这太强了，因为它告诉编译器必须写入所有内存。例如，在以下功能中：

void foo2(int* iptr, long* …

Run Code Online (Sandbox Code Playgroud)

c assembly gcc clang inline-assembly

Bee*_*ope

2019 06-04

5
推荐指数

1
解决办法

244
查看次数

标签统计

assembly ×2

c ×2

gcc ×2

clang ×1

inline-assembly ×1

memcpy ×1

x86 ×1

为memcpy增强了REP MOVSB

如何指示可以使用内联ASM参数*指向*的内存？

标签 统计

如何指示可以使用内联ASM参数指向的内存？

标签统计