使用SIMD持续浮动

Question

我一直在尝试使用microsoft的sse内在函数来优化我使用的代码.优化我的代码时最大的问题之一是每当我想使用常量时就会发生LHS.似乎有一些关于生成某些常量的信息(这里和这里 - 第13.4节),但它的所有汇编(我宁愿避免).

问题是当我尝试用内在函数实现相同的东西时,msvc抱怨不兼容的类型等.有没有人知道使用内在函数的任何等效技巧？

示例 - 生成{1.0,1.0,1.0,1.0}

//pcmpeqw xmm0,xmm0 
__m128 t = _mm_cmpeq_epi16( t, t );

//pslld xmm0,25 
_mm_slli_epi32(t, 25);

//psrld xmm0,2
return _mm_srli_epi32(t, 2);

这会产生一堆关于不兼容类型的错误(__m128 vs _m128i).我对此很陌生,所以我很确定我错过了一些明显的东西.有人可以帮忙吗？

tldr - 如何使用ms intrinsics生成一个填充了单精度常量浮点数的__m128 vec？

谢谢阅读 :)

Answer 1

@Ben Voigt：是的，这就是问题所在。引用[Intel、AMD和VIA CPU的微架构](http://www.agner.org/optimize/microarchitecture.pdf)：_“XMM寄存器有一些标记位，用于记住浮点值是否正常、非正规或零。__当整数指令的输出用作单精度或双精度浮点指令的输入时__必须设置这些标记位。这会导致所谓的重新格式化延迟。“_ (2认同)

Answer 2

只需使用_mm_castsi128_ps将 __m128i 转换为 __m128 即可。另外，第二行应该是

t = _mm_slli_epi32(t, 25)