标签: simd

为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在阅读Agner Fog的优化手册，并且遇到了这个例子：

double data[LEN];

void compute()
{
    const double A = 1.1, B = 2.2, C = 3.3;

    int i;
    for(i=0; i<LEN; i++) {
        data[i] = A*i*i + B*i + C;
    }
}

Run Code Online (Sandbox Code Playgroud)

Agner 指出，有一种方法可以优化此代码 - 通过认识到循环可以避免使用昂贵的乘法，而是使用每次迭代应用的“增量”。

我用一张纸来证实这个理论，首先......

...当然，他是对的 - 在每次循环迭代中，我们可以通过添加“增量”，基于旧结果计算新结果。该增量从值“A+B”开始，然后每一步增加“2*A”。

所以我们将代码更新为如下所示：

void compute()
{
    const double A = 1.1, B = 2.2, C = 3.3;
    const double A2 = A+A;
    double Z = A+B;
    double Y = C;

    int i;
    for(i=0; i<LEN; i++) {
        data[i] …

Run Code Online (Sandbox Code Playgroud)

optimization assembly x86-64 simd cpu-architecture

tts*_*ras

2022 06-27

320
推荐指数

6
解决办法

9万
查看次数

如何使用SSE4.2和AVX指令编译Tensorflow？

这是从运行脚本以检查Tensorflow是否正常工作时收到的消息:

I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcudnn.so.5 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcufft.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcurand.so.8.0 locally
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available …

Run Code Online (Sandbox Code Playgroud)

x86 simd compiler-optimization compiler-options tensorflow

Gab*_*Chu

2019 06-29

265
推荐指数

9
解决办法

23万
查看次数

x86 SIMD内在函数的头文件

哪些头文件为不同的x86 SIMD指令集扩展(MMX,SSE,AVX,...)提供内在函数？似乎不可能在网上找到这样的清单.如我错了请纠正我.

x86 sse simd header-files intrinsics

fre*_*low

2017 01-02

121
推荐指数

5
解决办法

5万
查看次数

并行地将 64 位整数中的压缩 8 位整数减去 1，SWAR 没有硬件 SIMD

如果我有一个 64 位整数，我将其解释为一个包含 8 个元素的压缩 8 位整数数组。我需要1在处理溢出时从每个压缩整数中减去常量，而一个元素的结果不会影响另一个元素的结果。

我现在有这个代码并且它可以工作，但我需要一个解决方案来并行地减去每个打包的 8 位整数并且不进行内存访问。在 x86 上，我可以使用类似的 SIMD 指令psubb并行减去打包的 8 位整数，但我正在编码的平台不支持 SIMD 指令。（在这种情况下为 RISC-V）。

因此，我正在尝试执行SWAR（寄存器内的 SIMD）以手动取消 a 的字节之间的进位传播uint64_t，执行与此等效的操作：

uint64_t sub(uint64_t arg) {
    uint8_t* packed = (uint8_t*) &arg;

    for (size_t i = 0; i < sizeof(uint64_t); ++i) {
        packed[i] -= 1;
    }

    return arg;
}

Run Code Online (Sandbox Code Playgroud)

我认为你可以用按位运算符来做到这一点，但我不确定。我正在寻找一种不使用 SIMD 指令的解决方案。我正在寻找一个非常便携的 C 或 C++ 解决方案，或者只是它背后的理论，这样我就可以实现我自己的解决方案。

c c++ bit-manipulation simd swar

cam*_*ite

2020 01-09

79
推荐指数

5
解决办法

5017
查看次数

SSE内在函数参考

有没有人知道列出gcc的SSE内在函数的操作的引用,即<*mmintrin.h>头文件中的函数？

谢谢.

c c++ gcc sse simd

NGa*_*ney

lucky-day

52
推荐指数

4
解决办法

3万
查看次数

vs omp simd并行:什么时候使用？

OpenMP 4.0引入了一个名为"omp simd"的新结构.使用这种结构比旧的"并行"有什么好处？什么时候会比另一个更好？

编辑:这是一篇与SIMD指令相关的有趣论文.

c c++ performance simd openmp

zr.*_*zr.

2013 06-09

50
推荐指数

2
解决办法

2万
查看次数

为什么 np.dot 比 np.sum 快这么多？

为什么 np.dot 比 np.sum 快这么多？根据这个答案，我们知道 np.sum 很慢并且有更快的替代方案。

例如：

In [20]: A = np.random.rand(1000)\n\nIn [21]: B = np.random.rand(1000)\n\nIn [22]: %timeit np.sum(A)\n3.21 \xc2\xb5s \xc2\xb1 270 ns per loop (mean \xc2\xb1 std. dev. of 7 runs, 100,000 loops each)\n\nIn [23]: %timeit A.sum()\n1.7 \xc2\xb5s \xc2\xb1 11.5 ns per loop (mean \xc2\xb1 std. dev. of 7 runs, 1,000,000 loops each)\n\nIn [24]: %timeit np.add.reduce(A)\n1.61 \xc2\xb5s \xc2\xb1 19.6 ns per loop (mean \xc2\xb1 std. dev. of 7 runs, 1,000,000 loops each)\n

Run Code Online (Sandbox Code Playgroud)\n

但它们都比以下慢： …

python numpy simd cython numba

Rap*_*ael

2023 02-28

47
推荐指数

2
解决办法

4678
查看次数

SSE入门

我想了解有关使用SSE的更多信息.

除了明显阅读英特尔®64和IA-32架构软件开发人员手册之外,还有哪些方法可以学习？

主要是我有兴趣使用GCC X86内置函数.

c x86 gcc sse simd

Lir*_*evi

2019 06-02

46
推荐指数

3
解决办法

2万
查看次数

ARM Cortex-A8:VFP和NEON之间的区别是什么

在ARM Cortex-A8处理器中,我了解NEON是什么,它是一个SIMD协处理器.

但VFP(矢量浮点)单元也是一个协处理器,可以作为SIMD处理器使用吗？如果是这样哪个更好用？

我读了几个链接,如 -

链接1
Link2.

但不是很清楚他们的意思.他们说VFP从未打算用于SIMD,但在Wiki上我读了以下内容 - " VFP架构还支持短向量指令的执行,但这些指令依次对每个向量元素进行操作,因此不提供真正的SIMD性能(单指令多数据并行. "

它不是很清楚要相信什么,任何人都可以详细说明这个话题吗？

arm simd neon cortex-a8

Hag*_*ble

2013 02-09

43
推荐指数

3
解决办法

3万
查看次数

如何确定内存是否对齐？

我是使用SSE/SSE2指令优化代码的新手,直到现在我还没有走得太远.据我所知,一个常见的SSE优化函数如下所示:

void sse_func(const float* const ptr, int len){
    if( ptr is aligned )
    {
        for( ... ){
            // unroll loop by 4 or 2 elements
        }
        for( ....){
            // handle the rest
            // (non-optimized code)
        }
    } else {
        for( ....){
            // regular C code to handle non-aligned memory
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

但是,如何正确确定内存ptr点是否与16字节对齐？我认为我必须包含非对齐内存的常规C代码路径,因为我无法确保传递给此函数的每个内存都将对齐.使用内在函数将数据从未对齐的内存加载到SSE寄存器似乎非常慢(甚至比常规C代码慢).

先感谢您...

c memory optimization sse simd

use*_*898

2018 08-24

40
推荐指数

6
解决办法

4万
查看次数