使用NEON指令进行图像阈值处理

giv*_*ivi 0 c iphone assembly neon ios

我正在为iOS制作一些图像处理应用程序,并且阈值处理确实是一个巨大的瓶颈.所以我正在尝试使用NEON进行优化.这是C版的功能.有没有办法用NEON重写这个(不幸的是我完全没有这方面的经验)?

static void thresh_8u( const Image& _src, Image& _dst, uchar thresh, uchar maxval, int type ) {
    int i, j;
    uchar tab[256];
    Size roi = _src.size();
    roi.width *= _src.channels();

    memset(&tab[0], 0, thresh);
    memset(&tab[thresh], maxval, 256-thresh);

    for( i = 0; i < roi.height; i++ ) {
        const uchar* src = (const uchar*)(_src.data + _src.step*i);
        uchar* dst = (uchar*)(_dst.data + _dst.step*i);
        j = 0;

        for(; j <= roi.width; ++j) {
            dst[j] = tab[src[j]];
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

rob*_*off 7

这实际上非常简单,如果你可以确保你的行总是16字节宽的倍数,因为编译器(clang)有特殊的类型代表NEON向量寄存器,并且知道如何将普通的C运算符应用于它们.这是我的小测试功能:

#ifdef __ARM_NEON__

#include <arm_neon.h>

void computeThreshold(void *input, void *output, int count, uint8_t threshold, uint8_t highValue) {
    uint8x16_t thresholdVector = vdupq_n_u8(threshold);
    uint8x16_t highValueVector = vdupq_n_u8(highValue);
    uint8x16_t *__restrict inputVector = (uint8x16_t *)input;
    uint8x16_t *__restrict outputVector = (uint8x16_t *)output;
    for ( ; count > 0; count -= 16, ++inputVector, ++outputVector) {
        *outputVector = (*inputVector > thresholdVector) & highValueVector;
    }
}

#endif
Run Code Online (Sandbox Code Playgroud)

它一次以16个字节运行.A uint8x16_t是一个包含16个8位无符号整数的向量寄存器.在vdupq_n_u8返回向量uint8x16_t充满了它的参数的16个副本.

>应用于两个uint8x16_t值的运算符在8位无符号整数对之间进行16次比较.在左输入大于右输入的情况下,它返回0xff(这与正常的C不同,它只>返回0x01).如果左输入小于或等于右输入,则返回0.(它编译成VCGT.U8指令.)

&应用于两个uint8x16_t值的运算符计算128对位的布尔AND.

循环在发布版本中编译为:

0x6e668:  vldmia r2, {d4, d5}
0x6e66c:  subs   r0, #16
0x6e66e:  vcgt.u8 q10, q10, q8
0x6e672:  adds   r2, #16
0x6e674:  cmp    r0, #0
0x6e676:  vand   q10, q10, q9
0x6e67a:  vstmia r1, {d4, d5}
0x6e67e:  add.w  r1, r1, #16
0x6e682:  bgt    0x6e668
Run Code Online (Sandbox Code Playgroud)