相关疑难解决方法(0)

在x86上做水平浮点矢量和的最快方法

你有一个三(或四)个浮点数的向量.总结它们的最快方法是什么?

SSE(movaps,shuffle,add,movd)总是比x87快吗?SSE4.2中的水平加法说明值得吗?移动到FPU的成本是多少,然后是faddp,faddp?什么是最快的特定指令序列?

"尝试安排事情,这样你可以一次总结四个向量"将不被接受作为答案.:-)

floating-point optimization x86 assembly sse

41
推荐指数
4
解决办法
2万
查看次数

x86微体系结构/ SIMD市场份额

哪里可以找到有关x86微体系结构"市场份额"的数据?x86系列CPU的用户有多少百分比拥有支持SSE4.2,AVX,AVX2等的CPU?

我正在为我的程序分发预编译的二进制文件,我想知道什么是最佳的优化目标,以及在没有运行时检查的情况下可以合理使用哪些SIMD扩展.

我可以找到整体的英特尔与AMD市场份额数据,但不是几代英特尔和AMD的CPU细分.理想情况下,我也希望按操作系统和每个国家/地区进行细分,但即使是微体系结构的全局统计数据也会比没有更好.

x86 sse simd instruction-set baseline

3
推荐指数
1
解决办法
197
查看次数