ARM/NEON的64位/ 32位分区更快算法？

Question

ARM/NEON的64位/ 32位分区更快算法？

我正在研究一个代码,其中两个地方有64位乘32位定点除法,结果取32位.这两个地方共占用了我总时间的20%以上.所以我觉得如果我能删除64位除法,我可以很好地优化代码.在NEON中,我们可以有一些64位指令.任何人都可以建议通过使用更快的实现来解决瓶颈问题.

或者如果我可以用C中的32位/ 32位除法进行64位/ 32位除法,那也没关系？

如果有人有任何想法,你能帮帮我吗？

Answer 1

Nil*_*nck 5

过去我做了很多定点运算，也做了很多研究，寻找快速的 64/32 位除法。如果您在 google 上搜索“ARM 部门”，您会发现大量关于此问题的重要链接和讨论。

ARM 架构的最佳解决方案，其中硬件中甚至可能无法使用 32 位划分：

http://www.peter-teichmann.de/adiv2e.html

这段汇编代码很旧，你的汇编程序可能不理解它的语法。然而，值得将代码移植到您的工具链中。这是迄今为止我见过的最快的特殊情况的除法代码，相信我：我已经对它们进行了基准测试:-)

上次我这样做时（大约 5 年前，对于 CortexA8），这段代码比编译器生成的代码快 10 倍左右。

此代码不使用 NEON。NEON 端口会很有趣。不确定它是否会大大提高性能。

编辑：

我发现带有汇编器的代码移植到 GAS（GNU 工具链）。此代码正在运行并经过测试：

除以 S

.section ".text"

.global udiv64

udiv64:
    adds      r0,r0,r0
    adc       r1,r1,r1

    .rept 31
        cmp     r1,r2   
        subcs   r1,r1,r2  
        adcs    r0,r0,r0
        adc     r1,r1,r1
    .endr

    cmp     r1,r2
    subcs   r1,r1,r2
    adcs    r0,r0,r0

    bx      lr

Run Code Online (Sandbox Code Playgroud)

C代码：

extern "C" uint32_t udiv64 (uint32_t a, uint32_t b, uint32_t c);

int32_t fixdiv24 (int32_t a, int32_t b)
/* calculate (a<<24)/b with 64 bit immediate result */
{
  int q;
  int sign = (a^b) < 0; /* different signs */
  uint32_t l,h;
  a = a<0 ? -a:a;
  b = b<0 ? -b:b;
  l = (a << 24);
  h = (a >> 8);
  q = udiv64 (l,h,b);
  if (sign) q = -q;
  return q;
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，10 月前
查看次数：	3386 次
最近记录：	12 年，2 月前