在Arm64中缺少SSAT和USAT指令的替代方案？

Question

在Arm64中缺少SSAT和USAT指令的替代方案？

我们正在将一个主要应用程序从Arm32移植到Arm64.我们的算法经常使用SSAT和USAT指令.它们非常有用,执行任何大小的左移或右移,然后有符号或无符号饱和到任意数量的位.这对于图像处理算法非常有用,因为我们可以执行一些生成32位整数结果的数学运算,然后从中获取所需的任何位(饱和到输出图像的位深度的最大值/最小值),一条指令.

这些指令在Arm64中莫名其妙地消失了,我们发现的最接近的替代方法是SQSHRN/ UQSHRN/ SQSHLN/ UQSHLN执行移位和饱和但在它们执行的饱和度方面受到更多限制(USAT可以饱和到任何宽度,甚至7位;新指令可以仅饱和到输入宽度的一半,例如在32位输入的情况下为16位,这将需要额外的处理以实现所需的结果).

有人可以解释为什么删除这些指令,以及有效移植使用它们的现有代码的最佳方法是什么？

Answer 1

efr*_*rat 1

--更新--使用非汇编代码时，正确测试的时间明显变慢，我将继续寻找不同的方法

我比较了这个汇编代码：

#define __arm_ssat(src, bits)   asm("ssat %[srcr], %[satv], %[srcr]"    :[srcr]"+r"(src):[satv]"I"(bits));

Run Code Online (Sandbox Code Playgroud)

有了这个：

#define MAX_SIGNED_NUM(bits) ((1 << (bits -1)) -1)
#define __arm_ssat(src, bits)   {src = ((src > MAX_SIGNED_NUM(bits)) ? MAX_SIGNED_NUM(bits) : src);}

Run Code Online (Sandbox Code Playgroud)

在 32 位设备上运行此 --UPDATED TEST-- 时：

volatile  void assert_ssat_asm(int* buf, size_t loops){
    int64_t num = buf[0];
    int64_t num_a = buf[1];
    int64_t num_b = buf[2];
    int sum = 0;
    struct timeval tmv1; gettimeofday(&tmv1,NULL);
    for (int i = 0; i < loops; ++i){
        __arm_ssat(num, 8);
        sum+=num;
        assert( 127 == num);
        num = buf[0];

        __arm_ssat(num, 16);
        sum+=num;
        assert(32767 == num);

        __arm_ssat(num_a, 8);
        sum+=num;
        assert( 127 == num_a);
        num_a = buf[1];

        __arm_ssat(num_a, 16);
        sum+=num;
        assert( 690 == num_a);

        __arm_ssat(num_b, 8);
        sum+=num;
        assert( 127 == num_b);
        num_b = buf[2];

        __arm_ssat(num_b, 16);
        sum+=num;
        assert( 32767 == num_b);
    }
    struct timeval tmv2; gettimeofday(&tmv2,NULL);
    int tdiff_usec = (tmv2.tv_sec*1000000 + tmv2.tv_usec) - (tmv1.tv_sec*1000000 + tmv1.tv_usec);

    printf("%d\n", sum);
    printf("ran %d times, total time: %d,  average time asm: %.7f\n", loops, tdiff_usec, (double)tdiff_usec/loops);
}
int main ()
{
    int buf[] = { 69000, 690, 64000 };
    test_ssat(buf, 1000000);
}

Run Code Online (Sandbox Code Playgroud)

我得到了这些结果：

运行 1000000 次循环，平均时间 reg: 0.0210270

运行 1000000 次循环，平均组装时间：0.0057960

归档时间：	7 年，1 月前
查看次数：	207 次
最近记录：	7 年，1 月前