相关疑难解决方法(0)

在x86上做水平浮点矢量和的最快方法

你有一个三(或四)个浮点数的向量.总结它们的最快方法是什么?

SSE(movaps,shuffle,add,movd)总是比x87快吗?SSE4.2中的水平加法说明值得吗?移动到FPU的成本是多少,然后是faddp,faddp?什么是最快的特定指令序列?

"尝试安排事情,这样你可以一次总结四个向量"将不被接受作为答案.:-)

floating-point optimization x86 assembly sse

41
推荐指数
4
解决办法
2万
查看次数

使用 AVX512 或 AVX2 计算所有打包 32 位整数总和的最快方法

我正在寻找一种最佳方法来计算 a __m256ior中所有打包的 32 位整数的总和__m512i。为了计算n 个元素的总和,我经常使用log2(n) vpadddvpermd函数,然后提取最终结果。但是,这不是我认为的最佳选择。

编辑:在速度/周期减少方面最佳/最佳。

c intrinsics avx avx2 avx512

5
推荐指数
1
解决办法
1772
查看次数

标签 统计

assembly ×1

avx ×1

avx2 ×1

avx512 ×1

c ×1

floating-point ×1

intrinsics ×1

optimization ×1

sse ×1

x86 ×1