ARM/NEON的64位/ 32位分区更快算法?

cib*_*lip 7 c arm

我正在研究一个代码,其中两个地方有64位乘32位定点除法,结果取32位.这两个地方共占用了我总时间的20%以上.所以我觉得如果我能删除64位除法,我可以很好地优化代码.在NEON中,我们可以有一些64位指令.任何人都可以建议通过使用更快的实现来解决瓶颈问题.

或者如果我可以用C中的32位/ 32位除法进行64位/ 32位除法,那也没关系?

如果有人有任何想法,你能帮帮我吗?

Nil*_*nck 5

过去我做了很多定点运算,也做了很多研究,寻找快速的 64/32 位除法。如果您在 google 上搜索“ARM 部门”,您会发现大量关于此问题的重要链接和讨论。

ARM 架构的最佳解决方案,其中硬件中甚至可能无法使用 32 位划分:

http://www.peter-teichmann.de/adiv2e.html

这段汇编代码旧,你的汇编程序可能不理解它的语法。然而,值得将代码移植到您的工具链中。这是迄今为止我见过的最快的特殊情况的除法代码,相信我:我已经对它们进行了基准测试:-)

上次我这样做时(大约 5 年前,对于 CortexA8),这段代码比编译器生成的代码快 10 倍左右。

此代码不使用 NEON。NEON 端口会很有趣。不确定它是否会大大提高性能。

编辑:

我发现带有汇编器的代码移植到 GAS(GNU 工具链)。此代码正在运行并经过测试:

除以 S

.section ".text"

.global udiv64

udiv64:
    adds      r0,r0,r0
    adc       r1,r1,r1

    .rept 31
        cmp     r1,r2   
        subcs   r1,r1,r2  
        adcs    r0,r0,r0
        adc     r1,r1,r1
    .endr

    cmp     r1,r2
    subcs   r1,r1,r2
    adcs    r0,r0,r0

    bx      lr
Run Code Online (Sandbox Code Playgroud)

C代码:

extern "C" uint32_t udiv64 (uint32_t a, uint32_t b, uint32_t c);

int32_t fixdiv24 (int32_t a, int32_t b)
/* calculate (a<<24)/b with 64 bit immediate result */
{
  int q;
  int sign = (a^b) < 0; /* different signs */
  uint32_t l,h;
  a = a<0 ? -a:a;
  b = b<0 ? -b:b;
  l = (a << 24);
  h = (a >> 8);
  q = udiv64 (l,h,b);
  if (sign) q = -q;
  return q;
}
Run Code Online (Sandbox Code Playgroud)