相关疑难解决方法(0)

当我使用ymm8-ymm15寄存器(不是ymm0-ymm7)时会发生惩罚吗？SSE最初有8个128位寄存器(xmm0-xmm7),但在64位模式下,(xmm8-xmm15)也可用于非VEX前缀指令.但是,我已经审查了我们的64位应用程序,它只使用xmm0-xmm7,因为它也有一个32位版本,几乎相同的代码.仅当CPU尝试使用之前使用过的xmm寄存器为ymm并且具有高128位非零值时才会发生惩罚吗？将快速内存复制后使用的ymm寄存器归零是不是更好？例如,我曾使用ymm寄存器复制32个字节的内存 - 将它归零的最快方法是什么？"vpxor ymm15,ymm15,ymm15"足够快吗？(AFAIK,vpxor可以在3个ALU执行端口中的任何一个上执行,p0/p1/p5,而vxorpd只能在p5上执行).是不是将它归零的时间超过使用它来复制32字节内存的收益？

x86 assembly sse avx micro-optimization

Max*_*tin

2019 08-25

4
推荐指数

4
解决办法

908
查看次数

AVX512BW：使用 bsf / tzcnt 处理 32 位代码中的 64 位掩码？

这是我在 AVX512BW 中的“strlen”函数的代码

vxorps          zmm0, zmm0, zmm0   ; ZMM0 = 0
vpcmpeqb        k0, zmm0, [ebx]    ; ebx is string and it's aligned at 64-byte boundary
kortestq        k0, k0             ; 0x00 found ?
jnz             .chk_0x00

Run Code Online (Sandbox Code Playgroud)

现在对于'chk_0x00'，在x86_64系统中，没有问题，我们可以这样处理：

chk_0x00:
kmovq   rbx, k0
tzcnt   rbx, rbx
add     rax, rbx

Run Code Online (Sandbox Code Playgroud)

这里我们有一个 64 位寄存器，因此我们可以将掩码存储到其中，但我的问题是关于 x86 系统，我们没有任何 64 位寄存器，因此我们必须使用“内存”保留（8 字节）并检查两者掩码的DWORD一一对应（其实这是我的方式，我想知道有没有更好的方式）

chk_0x00:
kmovd   ebx, k0       ; move the first dword of the mask to the ebx
test    ebx, ebx      ; 0x00 found in the first dword ?
jz …

Run Code Online (Sandbox Code Playgroud)

x86 assembly 32-bit micro-optimization avx512

ELH*_*ERS

2019 10-26

2
推荐指数

1
解决办法

606
查看次数

Haswell AVX/FMA 延迟测试比英特尔指南说的慢 1 个周期

在英特尔内部函数指南，vmulpd并vfmadd213pd已延迟5，vaddpd具有延迟3。

我写了一些测试代码，但所有的结果都慢了 1 个周期。

这是我的测试代码：

.CODE
test_latency PROC
    vxorpd  ymm0, ymm0, ymm0
    vxorpd  ymm1, ymm1, ymm1

loop_start:
    vmulpd  ymm0, ymm0, ymm1
    vmulpd  ymm0, ymm0, ymm1
    vmulpd  ymm0, ymm0, ymm1
    vmulpd  ymm0, ymm0, ymm1
    sub     rcx, 4
    jg      loop_start

    ret
test_latency ENDP
END

Run Code Online (Sandbox Code Playgroud)

.CODE
test_latency PROC
    vxorpd  ymm0, ymm0, ymm0
    vxorpd  ymm1, ymm1, ymm1

loop_start:
    vmulpd  ymm0, ymm0, ymm1
    vmulpd  ymm0, ymm0, ymm1
    vmulpd  ymm0, ymm0, ymm1
    vmulpd  ymm0, ymm0, ymm1
    sub     rcx, 4
    jg …

Run Code Online (Sandbox Code Playgroud)

performance x86-64 intel cpu-architecture avx

kev*_*jwz

2020 09-29

2
推荐指数

1
解决办法

132
查看次数

我需要在 2021 年使用 _mm256_zeroupper 吗？

摘自Agner Fog 的“用 C++ 优化软件”：

在某些 Intel 处理器上混合使用和不使用 AVX 支持编译的代码时会出现问题。由于 YMM 寄存器状态的变化，从 AVX 代码到非 AVX 代码会导致性能下降。在从 AVX 代码到非 AVX 代码的任何转换之前，应该通过调用内部函数 _mm256_zeroupper() 来避免这种惩罚。在以下情况下，这可能是必要的：

• 如果程序的一部分是使用 AVX 支持编译的，而程序的另一部分是在没有 AVX 支持的情况下编译的，则在离开 AVX 部分之前调用 _mm256_zeroupper()。

• 如果使用 CPU 调度在使用和不使用 AVX 的多个版本中编译函数，则在离开 AVX 部分之前调用 _mm256_zeroupper()。

• 如果一段使用AVX 支持编译的代码调用了编译器自带的库以外的库中的函数，而该库没有AVX 支持，则在调用库函数之前先调用_mm256_zeroupper()。

我想知道什么是英特尔处理器。具体来说，是否有过去五年制造的处理器。这样我就知道修复丢失的_mm256_zeroupper()电话是否为时已晚。

c++ sse simd intrinsics avx

Ale*_*iev

2021 08-11

2
推荐指数

1
解决办法

137
查看次数