ARM Neon 内在函数,两个向量的加法

jaz*_*z_f 1 c arm hpc addition neon

我有一个非常简单的 C 函数,成对添加两个整数数组:

void add_arrays(int* a, int* b, int* target, int size) {
    for(int i=0; i<size; i++) {
        target[i] = a[i] + b[i];
    }
}
Run Code Online (Sandbox Code Playgroud)

我看到在 ARM 上,Neon 内在函数在 <arm_neon.h> 中可用,并且您应该能够对向量进行加法、乘法等操作,但我看到的所有示例都非常复杂。有人可以展示如何使用 ARM Neon 内在函数执行简单的操作,例如成对加法吗?

更新 我的术语是错误的,我希望实现按元素加法。

nem*_*equ 6

首先,正如杰克提到的,这段代码所做的不是成对加法。成对加法是将相邻对相加;就像是

void add_arrays(int* a, int* target, int size) {
    for(int i=0; i<size; i++) {
        target[i] = a[i * 2] + a[(i * 2) + 1];
    }
}
Run Code Online (Sandbox Code Playgroud)

这可以使用 NEON 来完成,但我假设您的代码是正确的,但您的术语对于本答案的其余部分是错误的。如果情况相反,这个答案加上查看vpaddq_s32(或可能vpaddl_s32)的文档应该可以帮助您完成大部分工作。

为简单起见,我假设大小是 4 的倍数(因为 4 个 32 位元素 = 1 128 位向量),因此:

void add_arrays(int* a, int* b, int* target, int size) {
    for(int i=0; i<size; i+=4) {
        target[  i  ] = a[  i  ] + b[  i  ];
        target[i + 1] = a[i + 1] + b[i + 1];
        target[i + 2] = a[i + 2] + b[i + 2];
        target[i + 3] = a[i + 3] + b[i + 3];
    }
}
Run Code Online (Sandbox Code Playgroud)

现在让我们添加一些 NEON 内在函数:

#include <arm_neon.h>

void add_arrays(int* a, int* b, int* target, int size) {
    for(int i=0; i<size; i+=4) {
        /* Load data into NEON register */
        int32x4_t av = vld1q_s32(&(a[i]));
        int32x4_t bv = vld1q_s32(&(b[i]));

        /* Perform the addition */
        int32x4_t targetv = vaddq_s32(av, bv);

        /* Store the result */
        vst1q_s32(&(target[i]), targetv);
    }
}
Run Code Online (Sandbox Code Playgroud)

就是这样。您可以在https://godbolt.org/z/W6KPv186x上查看生成代码的差异。