相关疑难解决方法(0)

为memcpy增强了REP MOVSB

我想使用增强的REP MOVSB(ERMSB)为自定义获得高带宽memcpy.

ERMSB引入了Ivy Bridge微体系结构.如果您不知道ERMSB是什么,请参阅英特尔优化手册中的"增强型REP MOVSB和STOSB操作(ERMSB)" 部分.

我知道直接执行此操作的唯一方法是使用内联汇编.我从https://groups.google.com/forum/#!topic/gnu.gcc.help/-Bmlm_EG_fE获得了以下功能

static inline void *__movsb(void *d, const void *s, size_t n) {
  asm volatile ("rep movsb"
                : "=D" (d),
                  "=S" (s),
                  "=c" (n)
                : "0" (d),
                  "1" (s),
                  "2" (n)
                : "memory");
  return d;
}

Run Code Online (Sandbox Code Playgroud)

然而,当我使用它时,带宽远小于memcpy. 使用我的i7-6700HQ(Skylake)系统,Ubuntu 16.10,DDR4 @ 2400 MHz双通道32 GB,GCC 6.2,__movsb获得15 GB/s并memcpy获得26 GB/s.

为什么带宽如此低REP MOVSB？我该怎么做才能改善它？

这是我用来测试它的代码.

//gcc -O3 -march=native -fopenmp foo.c
#include <stdlib.h>
#include <string.h>
#include <stdio.h>
#include …

Run Code Online (Sandbox Code Playgroud)

c x86 assembly gcc memcpy

Z b*_*son

2017 04-26

56
推荐指数

4
解决办法

1万
查看次数

使 std::vector 分配对齐内存的现代方法

在以下问题是相关的，但答案是旧的，并且从用户评论马克Glisse表明有因为C ++ 17的新方法这个问题可能没有得到充分讨论。

我试图让对齐的内存为 SIMD 正常工作，同时仍然可以访问所有数据。

在 Intel 上，如果我创建一个类型为的浮点向量__m256，并将我的大小减小 8 倍，它会给我对齐的内存。

例如 std::vector<__m256> mvec_a((N*M)/8);

以一种稍微有点麻烦的方式，我可以将指向向量元素的指针转换为浮点，这允许我访问单个浮点值。

相反，我更喜欢std::vector<float>正确对齐的，因此可以加载到__m256其他 SIMD 类型中而不会出现段错误。

我一直在研究aligned_alloc。

这可以给我一个正确对齐的 C 样式数组：

auto align_sz = static_cast<std::size_t> (32);
float* marr_a = (float*)aligned_alloc(align_sz, N*M*sizeof(float));

Run Code Online (Sandbox Code Playgroud)

但是我不确定如何为std::vector<float>. 授予的std::vector<float>所有权marr_a 似乎是不可能的。

我已经看到一些建议我应该编写自定义分配器，但这似乎需要做很多工作，也许现代 C++ 有更好的方法？

c++ simd memory-alignment stdvector c++17

Pru*_*ica

2020 02-11

13
推荐指数

2
解决办法

729
查看次数

SIMD指令降低CPU频率

我读了这篇文章。它谈到了为什么AVX-512指令：

英特尔最新的处理器具有高级指令（AVX-512），这可能会导致内核或其他CPU的运行速度变慢，这是因为它们使用了多少电量。

我认为在Agner的博客上也提到了类似的内容（但我找不到确切的帖子）。

我想知道Skylake支持的其他哪些指令会产生类似的效果，即它们会降低功耗以在以后最大化吞吐量吗？所有前缀v指令（如vmovapd，vmulpd，vaddpd，vsubpd，vfmadd213pd）？

我正在尝试编译说明列表，以避免在为Xeon Skylake编译C ++应用程序时避免。

optimization x86 intel compiler-optimization avx512

HCS*_*CSF

2019 07-03

12
推荐指数

2
解决办法

564
查看次数

绩效评估的惯用方法？

我正在评估我的项目的网络+渲染工作负载。

程序连续运行一个主循环：

while (true) {
   doSomething()
   drawSomething()
   doSomething2()
   sendSomething()
}

Run Code Online (Sandbox Code Playgroud)

主循环每秒运行 60 多次。

我想查看性能故障，每个程序需要多少时间。

我担心的是，如果我打印每个程序的每个入口和出口的时间间隔，

这会导致巨大的性能开销。

我很好奇什么是衡量性能的惯用方法。

日志打印是否足够好？

benchmarking microbenchmark

shp*_*ark

lucky-day

1
推荐指数

1
解决办法

1322
查看次数

标签统计

x86 ×2

assembly ×1

avx512 ×1

benchmarking ×1

c ×1

c++ ×1

c++17 ×1

compiler-optimization ×1

gcc ×1

intel ×1

memcpy ×1

memory-alignment ×1

microbenchmark ×1

optimization ×1

simd ×1

stdvector ×1

为memcpy增强了REP MOVSB

使 std::vector 分配对齐内存的现代方法

SIMD指令降低CPU频率

绩效评估的惯用方法？

标签 统计

标签统计