使用SIMD的查找表

Rot*_*tem 13 c++ sse simd

我有一个很大的像素处理功能,我目前正在尝试使用内部函数进行优化.

作为一名SSE新手,我不知道如何处理涉及查找表的代码部分.

基本上,我试图矢量化以下vanilla C++代码:

 //outside loop
const float LUT_RATIO = 1000.0F;

//in loop
float v = ... //input value
v = myLookupTable[static_cast<int>(v * LUT_RATIO)];
Run Code Online (Sandbox Code Playgroud)

我在尝试什么:

//outside loop
const __m128 LUT_RATIO = _mm_set1_ps(1000.0F);

//in loop
__m128 v = _mm_set_ps(v1, v2, v3, v4); //input values
__m128i vI = _mm_cvtps_epi32(_mm_mul_ps(v, LUT_RATIO)); //multiply and convert to integers
v = ??? // how to get vI indices of myLookupTable?
Run Code Online (Sandbox Code Playgroud)

编辑:ildjarn提出了一个要求我澄清的观点.我不是试图为查找表代码实现加速,我只是试图避免必须将寄存器专门存储到浮点数中进行查找,因为这部分夹在理论上可以从SSE中获益的其他两个部分之间.

Pau*_*l R 15

如果您可以等到明年,那么英特尔的Haswell CPU将拥有AVX2,其中包含收集负载的说明.这使您可以在一条指令中进行8次并行LUT查找(参见例如VGATHERDPS).除此之外,你运气不好,除非你的LUT很小(例如16个元素),在这种情况下你可以使用PSHUFB.

  • 然后是标量代码.这在某种程度上是个好消息,我可以不再担心这部分,并继续研究可能更加优化的部分. (3认同)