Rust target-cpu=native 的 SIMD 执行速度变慢

Question

Rust target-cpu=native 的 SIMD 执行速度变慢

我正在对 x86 内在函数的 Rust 包装器进行简单测试：莱布尼茨级数的 PI 近似值：

#[cfg(target_arch = "x86_64")]
use std::arch::x86_64::*;

fn main() {
    let mut n: u64 = 0;
    let pi4 = std::f64::consts::PI / 4.0;
    unsafe {
        let mut dens = _mm256_set_pd(1.0f64, -3.0f64, 5.0f64, -7.0f64);
        let adder = _mm256_set_pd(8.0f64, -8.0f64, 8.0f64, -8.0f64);
        let ones = _mm256_set1_pd(1.0f64);
        let mut rsum = _mm256_set1_pd(0.0f64);
        let mut quotients: __m256d;
        loop {
            quotients = _mm256_div_pd(ones, dens);
            rsum = _mm256_add_pd(rsum, quotients);
            dens = _mm256_add_pd(dens, adder);
            n = n + 1;
            let vlow = _mm256_extractf128_pd(rsum, 0);
            let vhigh = _mm256_extractf128_pd(rsum, 1);
            let add_partial = _mm_add_pd(vlow, vhigh);
            let sum = _mm_cvtsd_f64(add_partial)
                + _mm_cvtsd_f64(_mm_unpackhi_pd(add_partial, add_partial));
            if f64::abs(pi4 - sum) < 1.0e-9 {
                break;
            }
        }
    }
    println!("Steps: {}", 4 * n);
}

Run Code Online (Sandbox Code Playgroud)

从功能上来说，该程序按预期工作。我的 CPU 型号是“AMD A8-9600 RADEON R7”，并且：

$ rustc --target=x86_64-linux-kernel --print target-cpus
Available CPUs for this target:
    native         - Select the CPU of the current host (currently bdver4).

Run Code Online (Sandbox Code Playgroud)

编译时使用：

$ cargo build --release

Run Code Online (Sandbox Code Playgroud)

现在的时间是：

$ time target/release/sotest 
real    0m1.668s
user    0m1.667s
sys 0m0.001s

Run Code Online (Sandbox Code Playgroud)

但对于“本机”目标，它运行得更慢：

$ RUSTFLAGS="-C target-cpu=native" cargo build --release
...
$ time target/release/sotest
real    0m2.783s
user    0m2.778s
sys 0m0.004s

Run Code Online (Sandbox Code Playgroud)

问题是“本机”目标CPU出了什么问题？乍一看文档，我期望有一个利用所有 CPU 提供的扩展的二进制文件：

编译器会将其转换为目标功能列表。

即使不考虑扩展，为什么会变慢呢？

顺便说一句，编译选择 avx 扩展会产生很大的提升：

RUSTFLAGS="-C target-feature=+avx" cargo build --release
...
real    0m0.358s
user    0m0.354s
sys 0m0.004s

Run Code Online (Sandbox Code Playgroud)

编辑：使用 Ubuntu 20.04 内核 5.4.0-72-generic。生锈 1.51.0

Answer 1

Bur*_*hi5 6

我的猜测是您遇到了这个错误： https: //github.com/rust-lang/rust/issues/83027，该错误已于 2021 年 3 月 17 日由https://github.com/rust-lang/解决铁锈/拉/83084。

错误在于，当native使用时，target_feature没有正确应用，这是所有内在函数所使用的。因此，您对内部函数的调用可能不会被内联。您应该查看个人资料来确认这一点。

更一般地说，我建议使用运行时 CPU 功能检测并正确使用#[target_feature]. 您应该只从至少启用了该功能的函数中调用对 32 字节向量进行操作的函数avx。

归档时间：	4 年，9 月前
查看次数：	4325 次
最近记录：	3 年，7 月前