如何为 Lua 5.1 构建反编译器?

Gur*_*ama 5 compiler-construction optimization lua decompiling

我正在为 Lua 5.1 构建一个反编译器。(仅用于学习目的)

这是生成的代码:

main <test.lua:0,0> (12 instructions, 48 bytes at 008D0520)
0+ params, 2 slots, 0 upvalues, 0 locals, 6 constants, 0 functions
        1       [1]     LOADK           0 -2    ; 2
        2       [1]     SETGLOBAL       0 -1    ; plz_help_me
        3       [2]     LOADK           0 -4    ; 24
        4       [2]     SETGLOBAL       0 -3    ; oh_no
        5       [3]     GETGLOBAL       0 -1    ; plz_help_me
        6       [3]     GETGLOBAL       1 -3    ; oh_no
        7       [3]     ADD             0 0 1
        8       [3]     SETGLOBAL       0 -5    ; plz_work
        9       [4]     GETGLOBAL       0 -6    ; print
        10      [4]     GETGLOBAL       1 -5    ; plz_work
        11      [4]     CALL            0 2 1
        12      [4]     RETURN          0 1
constants (6) for 008D0520:
        1       "plz_help_me"
        2       2
        3       "oh_no"
        4       24
        5       "plz_work"
        6       "print"
locals (0) for 008D0520:
upvalues (0) for 008D0520:
Run Code Online (Sandbox Code Playgroud)

原始代码:

plz_help_me = 2
oh_no = 24
plz_work = plz_help_me + oh_no
print(plz_work)
Run Code Online (Sandbox Code Playgroud)

如何高效地构建一个反编译器来生成这段代码?我应该使用 AST 树来映射代码的行为吗?(本例中的操作码)

SK-*_*gic 2

Lua VM 是一个寄存器机,几乎可以无限提供寄存器,这意味着您不必处理寄存器分配的后果。它使整个事情比反编译(例如 x86)更容易忍受。

SSA 是一种非常方便的提升抽象级别的中间表示形式。将寄存器视为局部变量指针并按原样保留内存负载的简单转换,然后进行 SSA 转换 [1],将为您提供适合进一步分析的代码。下一步将是循环检测(纯粹在 CFG 级别上完成),并在 SSA 的帮助下检测循环变量和循环不变量。完成后,您将看到仅存在少数常见模式,可以将其直接转换为更高级别的循环。if一旦您处于 SSA 中,检测和其他线性控制流序列就变得更加容易。

SSA 的一个很好的特性是您可以轻松地用它构建高级 AST 表达式。每个 SSA 变量都有一个使用计数,因此您可以简单地替换所有一次性变量(不是由副作用指令生成的)来代替它们的使用(如果您保持其顺序,也可以替换副作用变量) 。仅保留多用途变量。

当然,您永远不会从此过程中获得有意义的局部变量名称。全局变量被保留。

[1] https://pfalcon.github.io/ssabook/latest/