为什么 dbra 在 Motorola 68k 中对于非常大的循环计数如此之快？

Question

我正在学习摩托罗拉 68k 汇编，我写了以下浪费时间的循环：

    move.l #0x0fffffff,%d0
    bsr timewaster
    rts

timewaster:
    dbra %d0,timewaster
    rts

这个浪费时间的循环几乎立即完成。我在调试器中逐步执行代码，以确保它实际上减去d00（确实如此）。然而，这个浪费时间的循环需要永远完成：

    move.l #0x0fffffff,%d0
    bsr timewaster
    rts

timewaster:
    sub.l #1,%d0
    bne timewaster
    rts

那么为什么代码使用dbra速度如此之快呢？

我在 TI-89 模拟器中运行了这些。

Answer 1

虽然由于在真实处理器上的获取较少，所以会有一些改进，但时间上存在如此大差异的原因是两种方法使用不同的大小。

从程序员参考手册，在页面上DBcc：

如果终止条件不成立，计数器数据寄存器的低 16 位减一。如果结果为 -1，则继续执行下一条指令。如果结果不等于 -1，则在程序计数器的当前值加上符号扩展的 16 位位移所指示的位置继续执行。

因此，该DBcc指令仅操作和检查循环计数寄存器的低位字。因此，SUB和Bcc版本将比第DBcc一个版本长约 4000 倍。如果您使用SUB.W而不是SUB.L我希望您获得更多相似的运行时间。

该DBcc指令将执行0x10000的时间，而BNE指令将执行0xFFFFFFF可倍。

请注意，循环计数器的高阶字如果不受影响DBcc，因此您的循环应以 D0 中的 0x0FFFFFFF 退出。该SUB.L/BNE版本应该在D0 0退出。

这与问题没有特别的关系，但是通过阅读手册，在某些地方似乎对DBcc指令的确切行为略有分歧。具体来说，当条件为真时循环计数器为 0 时的行为。两者都导致不采用分支，但他们对循环计数寄存器中的最终结果存在分歧。

Programmer's Reference Manual, Revision 1 (M68000PM/AD, REV. 1) 指出条件为真优先，循环计数器的递减值不回存，在寄存器中留下 0。以下内容来自手册：

If Condition False
    Then (Dn - 1 -> Dn; If Dn != -1 Then PC + d_n -> PC)

M68000 微处理器用户手册，第九版 (MC68000UM)，附录 A（MC68010 循环模式操作）说，减一结果优先，结果为 -1 导致结果被存储回，留下 -1在注册表中。以下是根据手册中的描述构造的：

If Dn - 1 == -1
    Then Dn - 1 -> Dn
Else
    If Condition False
        Then (Dn - 1 -> Dn; PC + d_n -> PC)

通常，由于计数导致的退出将保留 -1，而条件退出将保留不同的值（假设计数器未从 0xFFFF 开始）。当两者都为真时，两个来源就寄存器中的值存在分歧。

我假设 PRM 是正确的，它是行为的权威来源，并且因为它与 UM 中前面的描述相匹配，但 UM 可能暗示指令是如何实现的，至少在 MC68010 上是这样。