使用最少的指令将 4 个单精度浮点数加载并复制到打包的 __m256 变量中

Question

使用最少的指令将 4 个单精度浮点数加载并复制到打包的 __m256 变量中

我有一个包含 A、B、C、D 4 个浮点数字的浮点数组，我希望将它们加载到__m256像 AAABBCCDD 这样的变量中。最好的方法是什么？我知道使用_mm256_set_ps()始终是一种选择，但使用 8 个 CPU 指令似乎很慢。谢谢。

Answer 1

Pet*_*des 5

如果您的数据是另一个向量计算的结果（并且在 __m128 中），则您需要 AVX2 vpermps( _mm256_permutexvar_ps) 的控制向量为_mm256_set_epi32(3,3, 2,2, 1,1, 0,0)。

vpermps ymm在 Intel 上为 1 uop，但在 Zen2 上为 2 uop（具有 2 个周期吞吐量）。Zen1 上有 3 个 uop，每 4 个时钟吞吐量 1 个。（https://uops.info/）

如果它是单独标量计算的结果，您可能需要将它们与_mm_set_ps(d,d, c,c)(1x vshufps) 一起打乱以设置 vinsertf128。

但是对于内存中的数据，我认为最好的选择是128 位广播负载，然后是 in-lane shuffle。它只需要 AVX1，在现代 CPU 上，在 Zen2 和 Haswell 及更高版本上它是 1 个负载 + 1 个随机 uop。它在 Zen1 上也很高效：唯一的跨车道随机播放是 128 位广播负载。

在 Intel 和 Zen2（256 位随机执行单元）上，使用通道内随机播放的延迟低于通道交叉。这仍然需要一个 32 字节的随机控制向量常量，但如果您需要频繁执行此操作，它通常/希望在缓存中保持热状态。

__m256  duplicate4floats(void *p) {
   __m256 v = _mm256_broadcast_ps((const __m128 *) p);   // vbroadcastf128
   v = _mm256_permutevar_ps(v, _mm256_set_epi32(3,3, 2,2,  1,1, 0,0));  // vpermilps
   return v;
}

Run Code Online (Sandbox Code Playgroud)

现代 CPU 直接在加载端口处理广播负载，无需 shuffle uop。（与较窄的广播不同，Sandybridge 确实需要端口 5 shuffle uop vbroadcastf128，但 Haswell 及更高版本纯粹是端口 2/3。但 SnB 不支持 AVX2，因此粒度小于 128 位的跨车道 shuffle 不是一个选项。）

因此，即使 AVX2 可用，我认为 AVX1 指令在这里更有效。在 Zen1 上，vbroadcastf128为 2 uops，而 128 位为 1 vmovups，但vpermps（通道交叉）为 3 uops，而 128 位为 2 uops vpermilps。

不幸的是，clang 将其悲观化为vmovupsload 和 a vpermps ymm，但 GCC 按编写方式编译它。（神箭）

如果您想避免使用洗牌控制向量常量，（Intel 上为 2 uops）可以为（1 uops 通道内洗牌）vpmovzxdq ymm, [mem]设置元素。vmovsldup或者广播加载vunpckl/hps然后混合？

我知道使用 _mm256_set_ps() 始终是一个选项，但对于 8 个 CPU 指令来说它似乎很慢。

那么，获得一个更好的编译器吧！（或者记得启用优化。）

__m256  duplicate4floats_naive(const float *p) {
   return _mm256_set_ps(p[3],p[3], p[2], p[2], p[1],p[1], p[0],p[0]);
}

Run Code Online (Sandbox Code Playgroud)

使用 gcc ( https://godbolt.org/z/dMzh3fezE ) 编译为

duplicate4floats_naive(float const*):
        vmovups xmm1, XMMWORD PTR [rdi]
        vpermilps       xmm0, xmm1, 80
        vpermilps       xmm1, xmm1, 250
        vinsertf128     ymm0, ymm0, xmm1, 0x1
        ret

Run Code Online (Sandbox Code Playgroud)

所以 3 个 shuffle uop，不太好。它本可以使用vshufps而不是vpermilps节省代码大小并让它在 Ice Lake 上的更多端口上运行。但仍然比 8 条指令好得多。

clang 的 shuffle 优化器与我优化的内在函数生成相同的 asm，因为 clang 就是这样的。这是相当不错的优化，只是不太理想。

duplicate4floats_naive(float const*):
        vmovups xmm0, xmmword ptr [rdi]
        vmovaps ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [0,0,1,1,2,2,3,3]
        vpermps ymm0, ymm1, ymm0
        ret

Run Code Online (Sandbox Code Playgroud)

归档时间：	4 年，5 月前
查看次数：	489 次
最近记录：	4 年，5 月前