如何从 __m256 向量中的索引中提取单个浮点,并将其广播到结果向量?
伪代码:
__m256 input = { 2, 3, 4, 5, 6, 7, 8, 9 };
__m256 output = __mm256_selectidx(input, 2);
// output [0 .. 7] now consists of input[2], that is, {4, 4, 4, 4, 4, 4, 4, 4}
Run Code Online (Sandbox Code Playgroud)
相关功能似乎是提取/插入或排列,但文档很少/我不太理解。广播系列看起来也不错,但只适用于内存操作数?
对于仅 AVX(即没有 AVX2),您可以执行以下操作:
#include <stdio.h>
#include <immintrin.h>
#define _mm256_selectidx(v, i) ({\
__m256 vt = _mm256_permute2f128_ps(v, v, (i >> 2) | ((i >> 2) << 4)); \
vt = _mm256_permute_ps(vt, _MM_SHUFFLE(i & 3, i & 3, i & 3, i & 3)); \
})
int main(void)
{
__m256 v0 = _mm256_setr_ps(2, 3, 4, 5, 6, 7, 8, 9);
__m256 v1 = _mm256_selectidx(v0, 2);
float f0[8], f1[8];
_mm256_storeu_ps(f0, v0);
_mm256_storeu_ps(f1, v1);
printf("v0: %g %g %g %g %g %g %g %g\n", f0[0], f0[1], f0[2], f0[3], f0[4], f0[5], f0[6], f0[7]);
printf("v1: %g %g %g %g %g %g %g %g\n", f1[0], f1[1], f1[2], f1[3], f1[4], f1[5], f1[6], f1[7]);
return 0;
}
Run Code Online (Sandbox Code Playgroud)
测试:
$ gcc -Wall -mavx test_avx_select.c && ./a.out
v0: 2 3 4 5 6 7 8 9
v1: 4 4 4 4 4 4 4 4
Run Code Online (Sandbox Code Playgroud)
请注意,此代码使用宏的 gcc 扩展,其行为类似于函数 - 如果您使用的编译器不支持此扩展,那么您可能需要使用内联函数,并希望编译器可以处理编译- AVX 内在函数所需的时间常数。
| 归档时间: |
|
| 查看次数: |
934 次 |
| 最近记录: |