我已经用 SSSE3 完成了这个,现在我想知道这是否可以用 AVX2 完成以获得更好的性能?
我用一个零字节填充 24 位 rgb,使用来自Fast 24-bit array -> 32-bit array conversion 的代码?.
static const __m128i mask = _mm_setr_epi8(0, 1, 2, -1, 3, 4, 5, -1, 6, 7, 8, -1, 9, 10, 11, -1);
for (size_t row = 0; row < height; ++row)
{
for (size_t column = 0; column < width; column += 16)
{
const __m128i *src = reinterpret_cast<const __m128i *>(in + row * in_pitch + column + (column << 1));
__m128i *dst …Run Code Online (Sandbox Code Playgroud)