相关疑难解决方法(0)

在x86上做水平浮点矢量和的最快方法

你有一个三(或四)个浮点数的向量.总结它们的最快方法是什么?

SSE(movaps,shuffle,add,movd)总是比x87快吗?SSE4.2中的水平加法说明值得吗?移动到FPU的成本是多少,然后是faddp,faddp?什么是最快的特定指令序列?

"尝试安排事情,这样你可以一次总结四个向量"将不被接受作为答案.:-)

floating-point optimization x86 assembly sse

41
推荐指数
4
解决办法
2万
查看次数

添加SSE寄存器的组件

我想添加一个SSE寄存器的四个组件来获得一个浮点数.这是我现在这样做的方式:

float a[4];
_mm_storeu_ps(a, foo128);
float x = a[0] + a[1] + a[2] + a[3];
Run Code Online (Sandbox Code Playgroud)

是否有直接实现此目的的SSE指令?

c++ floating-point sse simd addition

17
推荐指数
1
解决办法
3216
查看次数

标签 统计

floating-point ×2

sse ×2

addition ×1

assembly ×1

c++ ×1

optimization ×1

simd ×1

x86 ×1