相关疑难解决方法(0)

__m128i transpose4x4mask = _mm_set_epi8(15, 11, 7, 3, 14, 10, 6, 2, 13,  9, 5, 1, 12,  8, 4, 0);
__m128i shuffle8x8Mask = _mm_setr_epi8(0, 1, 2, 3, 8, 9, 10, 11, 4,  5, 6, 7, 12,  13, 14, 15);

void TransposeBlock8x8(uint8_t *src, uint8_t *dst, int srcStride, int dstStride) {
    __m128i load0 = _mm_set_epi64x(*(uint64_t*)(src + 1 * srcStride), *(uint64_t*)(src + 0 * srcStride));
    __m128i load1 = _mm_set_epi64x(*(uint64_t*)(src + 3 * srcStride), *(uint64_t*)(src + …

Run Code Online (Sandbox Code Playgroud)

c optimization sse simd matrix

xma*_*s79

2017 05-23

11
推荐指数

1
解决办法

1273
查看次数

可以在同一代码路径中混合传统SSE编码指令和VEX编码指令吗？

随着AVX的推出,英特尔将VEX编码方案引入了英特尔64和IA-32架构.该编码方案主要用于AVX指令.我想知道是否可以混合使用VEX编码指令和现在称为"传统SSE"的指令.

我问这个问题的主要原因是代码大小.请考虑以下两条说明:

shufps xmm0, xmm0, 0
vshufps xmm0, xmm0, xmm0, 0

Run Code Online (Sandbox Code Playgroud)

我通常使用第一个"广播"标量值到XMM寄存器中的所有位置.现在,指令集表明这两者之间的唯一区别(在这种情况下)是VEX编码的一个清除了YMM寄存器的高位(> = 128).假设我不需要,在这种情况下使用VEX编码版本有什么好处？第一条指令需要4个字节(0FC6C000),第二条指令需要5个(C5F8C6C000).

提前感谢所有答案.

x86 assembly sse avx

Dan*_*zar

lucky-day

10
推荐指数

1
解决办法

974
查看次数

使用AVX后,SSE运行缓慢

我有一些奇怪的问题,我正在研究一些SSE2和AVX代码.我正在使用GCC构建我的应用程序,运行时cpu特征检测.对象文件使用每个CPU功能的单独标志构建,例如:

g++ -c -o ConvertSamples_SSE.o ConvertSamples_SSE.cpp -std=c++11 -fPIC -O0 -g -Wall -I./include -msse
g++ -c -o ConvertSamples_SSE2.o ConvertSamples_SSE2.cpp -std=c++11 -fPIC -O0 -g -Wall -I./include -msse2
g++ -c -o ConvertSamples_AVX.o ConvertSamples_AVX.cpp -std=c++11 -fPIC -O0 -g -Wall -I./include -mavx

Run Code Online (Sandbox Code Playgroud)

当我第一次启动该程序时,我发现SSE2例程正常,非SSE例程的速度提升(大约快100%).在我运行任何AVX例程之后,完全相同的SSE2例程现在运行得慢得多.

有人可以解释一下这可能是什么原因吗？

在AVX例程运行之前,所有测试都比FPU数学运算快大约80-130%,如此处所示,在AVX例程运行之后,SSE例程要慢得多.

如果我跳过AVX测试程序,我从未看到这种性能损失.

这是我的SSE2例程

void Float_S16(const float *in, int16_t *out, const unsigned int samples)
{
  static float  ratio = (float)Limits<int16_t>::range() / (float)Limits<float>::range();
  static __m128 mul   = _mm_set_ps1(ratio);

  unsigned int i;
  for (i = 0; i < samples - 3; i += 4, …

Run Code Online (Sandbox Code Playgroud)

c++ x86 gcc avx sse2

Geo*_*rey

2015 10-15

10
推荐指数

1
解决办法

762
查看次数