相关疑难解决方法(0)

使用AVX指令进行水平矢量和的最快方法

我有一个四个64位浮点值的打包向量.
我想得到向量元素的总和.

使用SSE(并使用32位浮点数),我可以执行以下操作:

v_sum = _mm_hadd_ps(v_sum, v_sum);
v_sum = _mm_hadd_ps(v_sum, v_sum);

Run Code Online (Sandbox Code Playgroud)

不幸的是,即使AVX具有_mm256_hadd_pd指令,它的结果也与SSE版本不同.我相信这是因为大多数AVX指令分别用作每个低128位和高128位的SSE指令,而不会跨越128位边界.

理想情况下,我要寻找的解决方案应遵循以下准则:
1)仅使用AVX/AVX2指令.(没有SSE)
2)不超过2-3条指令.

但是,任何有效/优雅的方式(即使不遵循上述指导原则)总是被广泛接受.

非常感谢您的帮助.

-Luigi Castelli

x86 sse simd vector-processing avx

Lui*_*lli

2012 03-20

15
推荐指数

1
解决办法

2万
查看次数

8个32位浮点数的水平总和

如果我有8个打包的32位浮点数(__m256),那么提取所有8个元素的水平和的最快方法是什么？同样,如何获得水平最大值和最小值？换句话说,以下C++函数的最佳实现是什么？

float sum(__m256 x);  ///< returns sum of all 8 elements
float max(__m256 x);  ///< returns the maximum of all 8 elements
float min(__m256 x);  ///< returns the minimum of all 8 elements

Run Code Online (Sandbox Code Playgroud)

x86 sse simd avx

Wal*_*ter

2016 05-27

3
推荐指数

2
解决办法

3020
查看次数

标签统计

avx ×2

simd ×2

sse ×2

x86 ×2

vector-processing ×1

使用AVX指令进行水平矢量和的最快方法

8个32位浮点数的水平总和

标签 统计

标签统计