减少C中的语句以提高效率

Question

减少C中的语句以提高效率

The*_*t 1 2 c reduce assembly conditional if-statement

我试图通过减少条件语句的数量来提高我的代码效率,因为我将来会在汇编中编写代码.你们有没有办法减少陈述的效率？

if (j==18)
{
    store=12;
}
else if(j==30)
{
    store=10;
}
else if(j==42)
{
    store=8;
}
else if(j==54)
{
    store=6;
}
else if(j==66)
{
    store=4;
}
else if(j==78)
{
    store=2;
}
else if(j==92)
{
    store=2;
}
else if(j==106)
{
    store=4;
}
else if(j==120)
{
    store=6;
}
else if(j==134)
{
    store=8;
}
else if(j==148)
{
    store=10;
}
else if(j==162)
{
    store=12;
}
else store=1;

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ped*_*d7g 5

if (j < 18 || 162 < j) {
    store = 1;
} else if (j < 90) {
    int mod12 = (j-6) % 12;
    // ((j-6)/12) -> 18=>1, .. 78=>6  (/6 used to get *2)
    store = (mod12) ? 1 : 14 - ((j-6) / 6);
} else {
    int mod14 = (j-8) % 14;
    // ((j-8)/14) -> 92=>6, ... 162=>11 (/7 used to get *2)
    store = (mod14) ? 1 : ((j-8) / 7) - 10;
}

Run Code Online (Sandbox Code Playgroud)

这可以通过手动汇编程序直接实现,虽然现代C++编译器会比普通人做得更好,例如gcc 7.3产生的东西比我原本想象的要好一些(我不想手工编写的东西) .

实际上gcc可以手工掌握,以便更好地理解该公式.

修改来源:

if (j < 18 || 162 < j) {
    store = 1;
} else if (j < 90) {
    int mod12 = (j-6) % 12;
    // ((j-6)/12) -> 18=>1, .. 78=>6
    store = (mod12) ? 1 : 14 - 2*((j-6) / 12);
} else {
    int mod14 = (j-8) % 14;
    // ((j-8)/14) -> 92=>6, ... 162=>11
    store = (mod14) ? 1 : 2*((j-8) / 14) - 10;
}

Run Code Online (Sandbox Code Playgroud)

为了完整性,这里是switch版本(没有基准测试,但应该比上面的代码慢很多):https://godbolt.org/g/ELNCYD

看起来gcc无法弄清楚它并且确实使用了很多"ifs".

新:所以在检查了所有那些编译器/和注释之后,这看起来是[性能]最佳的x86_64解决方案(子程序以"j"进入edi并返回"存储" rax)(NASM语法):

; input: edi = j, output: rax = store
storeByJ:
    sub     edi, 18
    cmp     edi, (162-18)
    ja      .JoutOfRange    ; j < 18 || 162 < j -> return 1
    ; rdi = 0 .. 162-18 = 144
    movzx   eax, byte [rel .JtoStoreLUT + rdi]
    ret
.JoutOfRange:
    mov     eax,1
    ret

.JtoStoreLUT:
    ;        0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F
    db      12, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1         ; 18->12
    db      10, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1         ; 30->10
    db       8, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1         ; 42->8
    db       6, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1         ; 54->6
    db       4, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1         ; 66->4
    db       2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1   ; 78->2
    db       2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1   ; 92->2
    db       4, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1   ;106->4
    db       6, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1   ;120->6
    db       8, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1   ;134->8
    db      10, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1   ;148->10
    db      12                                          ;162->12

Run Code Online (Sandbox Code Playgroud)

如果你有更大的范围(更多的值)仍然是+12并且在某些点+14差异之后,公式可能会变得更好(通过从太大的LUT(Look-Up-Table)保存缓存),但是此时此代码即使使用LUT数据也长约170B,因此即使使用整个循环,它也很可能适合.

编辑:另一种变体,具有半大小的LUT,但是ror在范围测试中使用单跳过滤出奇数值(我不确定性能,但与任何其他代码高效的问题一样,分析是绝对必要的,首先是理论推理,如果你不能在基准测试中确认你的理论,修改你的基准测试(更有可能),或者找出CPU内部的惊人错综复杂以及你如何误解某些东西......(但这仍然可能经常发生))..并使用cmovCC(总计97B)消除范围分支:

; input: edi = j, output: eax = store
storeByJ:
    mov     eax, 1
    sub     edi, 18
    ror     edi, 1          ; /2 but keeps "odd" bit in the edi
                            ; to make it fail range check on next line
    cmp     edi, (162-18)/2
    cmova   edi, eax        ; j < 18 || 162 < j || j&1 -> return 1 (from LUT[1])
    ; rdi = 0 .. (162-18)/2 = 72  # rdi = (j-18)/2
    movzx   eax, byte [rel .JtoStoreLUT + rdi]
    ret

.JtoStoreLUT:
    ;        0, 1, 2, 3, 4, 5, 6
    db      12, 1, 1, 1, 1, 1       ;  18->12
    db      10, 1, 1, 1, 1, 1       ;  30->10
    db       8, 1, 1, 1, 1, 1       ;  42->8
    db       6, 1, 1, 1, 1, 1       ;  54->6
    db       4, 1, 1, 1, 1, 1       ;  66->4
    db       2, 1, 1, 1, 1, 1, 1    ;  78->2
    db       2, 1, 1, 1, 1, 1, 1    ;  92->2
    db       4, 1, 1, 1, 1, 1, 1    ; 106->2
    db       6, 1, 1, 1, 1, 1, 1    ; 120->2
    db       8, 1, 1, 1, 1, 1, 1    ; 134->2
    db      10, 1, 1, 1, 1, 1, 1    ; 148->2
    db      12                      ; 162->2

Run Code Online (Sandbox Code Playgroud)

是的,我认为修复这个错过优化可能会使大量代码受益(特别是如果使用retpolines编译间接分支作为Spectre缓解).我没有编译器实现它有点惊讶. (2认同)

归档时间：	7 年，11 月前
查看次数：	228 次
最近记录：	7 年，11 月前