Yve*_*ust 11 c++ simd intrinsics sse2 avx2
我正在将使用SSE2内在函数编写的矢量化代码迁移到AVX2内在函数.
令我失望的是,我发现移位指令_mm256_slli_si256和_mm256_srli_si256仅分别在AVX寄存器的两半上运行,并且在它们之间引入了零.(这与处理整个SSE寄存器的_mm_slli_si128和_mm_srli_si128相反.)
你能推荐我一个简短的替代品吗?
更新:
_mm256_slli_si256
有效地实现了
_mm256_alignr_epi8(A, _mm256_permute2x128_si256(A, A, _MM_SHUFFLE(0, 0, 3, 0)), N)
要么
_mm256_slli_si256(_mm256_permute2x128_si256(A, A, _MM_SHUFFLE(0, 0, 3, 0)), N)
对于大于16字节的移位.
但问题仍然存在_mm256_srli_si256
.
从不同的输入,我收集了这些解决方案.跨越通道间障碍的关键是对齐指令,_mm256_alignr_epi8
.
0 <N <16
_mm256_alignr_epi8(A, _mm256_permute2x128_si256(A, A, _MM_SHUFFLE(0, 0, 2, 0)), 16 - N)
Run Code Online (Sandbox Code Playgroud)
N = 16
_mm256_permute2x128_si256(A, A, _MM_SHUFFLE(0, 0, 2, 0))
Run Code Online (Sandbox Code Playgroud)
16 <N <32
_mm256_slli_si256(_mm256_permute2x128_si256(A, A, _MM_SHUFFLE(0, 0, 2, 0)), N - 16)
Run Code Online (Sandbox Code Playgroud)
0 <N <16
_mm256_alignr_epi8(_mm256_permute2x128_si256(A, A, _MM_SHUFFLE(2, 0, 0, 1)), A, N)
Run Code Online (Sandbox Code Playgroud)
N = 16
_mm256_permute2x128_si256(A, A, _MM_SHUFFLE(2, 0, 0, 1))
Run Code Online (Sandbox Code Playgroud)
16 <N <32
_mm256_srli_si256(_mm256_permute2x128_si256(A, A, _MM_SHUFFLE(2, 0, 0, 1)), N - 16)
Run Code Online (Sandbox Code Playgroud)
这是一个使用avx2向左移位ymm寄存器的功能.我用它向左移动一个,虽然看起来它适用于高达63位的移位.
//----------------------------------------------------------------------------
// bit shift left a 256-bit value using ymm registers
// __m256i *data - data to shift
// int count - number of bits to shift
// return: __m256i - carry out bit(s)
static __m256i bitShiftLeft256ymm (__m256i *data, int count)
{
__m256i innerCarry, carryOut, rotate;
innerCarry = _mm256_srli_epi64 (*data, 64 - count); // carry outs in bit 0 of each qword
rotate = _mm256_permute4x64_epi64 (innerCarry, 0x93); // rotate ymm left 64 bits
innerCarry = _mm256_blend_epi32 (_mm256_setzero_si256 (), rotate, 0xFC); // clear lower qword
*data = _mm256_slli_epi64 (*data, count); // shift all qwords left
*data = _mm256_or_si256 (*data, innerCarry); // propagate carrys from low qwords
carryOut = _mm256_xor_si256 (innerCarry, rotate); // clear all except lower qword
return carryOut;
}
//----------------------------------------------------------------------------
Run Code Online (Sandbox Code Playgroud)