相关疑难解决方法(0)

高效的模 255 计算

我试图找到最有效的方法来计算 32 位无符号整数的模 255。我的主要重点是找到一种可以在 x86 和 ARM 平台上运行良好的算法，并着眼于除此之外的适用性。首先，我试图避免内存操作（这可能很昂贵），所以我正在寻找有点复杂的方法，同时避免使用表格。我还试图避免可能昂贵的操作，例如分支和乘法，并尽量减少使用的操作和寄存器的数量。

下面的 ISO-C99 代码捕获了我迄今为止尝试过的八个变体。它包括一个用于详尽测试的框架。我对这个粗略的执行时间测量进行了猛烈抨击，这似乎工作得很好，可以获得第一次性能印象。在一些平台上我试过（全部具有快速整数倍）的变种WARREN_MUL_SHR_2，WARREN_MUL_SHR_1和DIGIT_SUM_CARRY_OUT_1似乎是最高效的。我的实验表明，我在Compiler Explorer 中尝试的 x86、ARM、PowerPC 和 MIPS 编译器都很好地利用了特定于平台的功能，例如三输入LEA、字节扩展指令、乘法累加和指令预测。

该变体NAIVE_USING_DIV使用整数除法，与除数反乘，然后减法。这是基线情况。现代编译器知道如何有效地实现 255 的无符号整数除法（通过乘法），并将在适当的情况下使用离散替换反乘。要计算模数，base-1可以对base数字求和，然后折叠结果。例如3334 mod 9: sum 3+3+3+4 = 13, fold 1+3 = 4. 如果折叠后的结果是base-1，我们需要生成0来代替。DIGIT_SUM_THEN_FOLD使用这种方法。

A. Cockburn，“使用 8/16 位算法有效实现 OSI 传输协议校验和算法”，ACM SIGCOMM 计算机通信评论，卷。17, No. 3, 七月/八月 1987 年，第 13-20 页

展示了base-1在校验和计算模 255 的上下文中有效地添加数字模数的不同方法。计算数字的逐字节总和，并且在每次添加之后，也添加来自加法的任何进位。所以这将是一个ADD a, b …

c algorithm assembly bit-manipulation micro-optimization

nju*_*ffa

2021 06-22

21
推荐指数

4
解决办法

577
查看次数