如何将单个32位浮点加载/转换为AVX 256 ymm寄存器,以便所有8个浮点数来自单个源浮点数?
以前我使用AVX 128 xmm寄存器将一个浮动加载到4个打包浮动中.
movss xmm7,[eax]; shufps xmm7,xmm7,0; add eax, 0x4;
c++ optimization avx
avx ×1
c++ ×1
optimization ×1