如何从 LLVM 中的 CallInst 获取间接调用的函数名称

Dal*_*lia 6 c++ llvm llvm-clang

Function *fun = call->getCalledFunction();
Run Code Online (Sandbox Code Playgroud)

getCalledFunction();如果是间接调用则返回 null。如何获取函数的名称或指针的名称?

我发现Stack Overflow中与此问题相关的所有问题都谈到了直接调用的函数名称或指针类型。

我只想跟踪这样的案例:

void foo(){}
void goo(){}
void main(){
  int x = 1;
  void (*p)();
  if(x)
    p = &foo;
  else
    p = &goo;
  p(); // print the called function name
}
Run Code Online (Sandbox Code Playgroud)

Mat*_*son 1

我的建议是使用 clang AST 访问者,而不是使用 LLVM IR。

可以在此处找到 AST 访问者的示例:

http://clang.llvm.org/docs/RAVFrontendAction.html

如果我们转储代码的 AST(编译为 C++ - 在 C 中它将略有不同,因为 的声明func()与 相同func(...)):

$ clang++ -Xclang -ast-dump -fno-color-diagnostics -c funcptr.cpp

TranslationUnitDecl 0x50973b0 <<invalid sloc>> <invalid sloc>
|-TypedefDecl 0x50978f0 <<invalid sloc>> <invalid sloc> implicit __int128_t '__int128'
|-TypedefDecl 0x5097950 <<invalid sloc>> <invalid sloc> implicit __uint128_t 'unsigned __int128'
|-TypedefDecl 0x5097d50 <<invalid sloc>> <invalid sloc> implicit __builtin_va_list '__va_list_tag [1]'
|-FunctionDecl 0x5097df0 <funcptr.cpp:1:1, col:12> col:6 used foo 'void (void)'
| `-CompoundStmt 0x5097e90 <col:11, col:12>
|-FunctionDecl 0x5097ed0 <line:2:1, col:12> col:6 used goo 'void (void)'
| `-CompoundStmt 0x5097f70 <col:11, col:12>
`-FunctionDecl 0x5097fe0 <line:3:1, line:14:1> line:3:5 main 'int (void)'
  `-CompoundStmt 0x50d98b0 <col:11, line:14:1>
    |-DeclStmt 0x50d9548 <line:5:1, col:9>
    | `-VarDecl 0x50d94d0 <col:1, col:8> col:5 used x 'int' cinit
    |   `-IntegerLiteral 0x50d9528 <col:8> 'int' 1
    |-DeclStmt 0x50d9678 <line:6:1, col:12>
    | `-VarDecl 0x50d9620 <col:1, col:11> col:8 used p 'void (*)(void)'
    |-IfStmt 0x50d9818 <line:7:1, line:10:7>
    | |-<<<NULL>>>
    | |-ImplicitCastExpr 0x50d96d0 <line:7:4> '_Bool' <IntegralToBoolean>
    | | `-ImplicitCastExpr 0x50d96b8 <col:4> 'int' <LValueToRValue>
    | |   `-DeclRefExpr 0x50d9690 <col:4> 'int' lvalue Var 0x50d94d0 'x' 'int'
    | |-BinaryOperator 0x50d9758 <line:8:2, col:7> 'void (*)(void)' lvalue '='
    | | |-DeclRefExpr 0x50d96e8 <col:2> 'void (*)(void)' lvalue Var 0x50d9620 'p' 'void (*)(void)'
    | | `-UnaryOperator 0x50d9738 <col:6, col:7> 'void (*)(void)' prefix '&'
    | |   `-DeclRefExpr 0x50d9710 <col:7> 'void (void)' lvalue Function 0x5097df0 'foo' 'void (void)'
    | `-BinaryOperator 0x50d97f0 <line:10:2, col:7> 'void (*)(void)' lvalue '='
    |   |-DeclRefExpr 0x50d9780 <col:2> 'void (*)(void)' lvalue Var 0x50d9620 'p' 'void (*)(void)'
    |   `-UnaryOperator 0x50d97d0 <col:6, col:7> 'void (*)(void)' prefix '&'
    |     `-DeclRefExpr 0x50d97a8 <col:7> 'void (void)' lvalue Function 0x5097ed0 'goo' 'void (void)'
    `-CallExpr 0x50d9888 <line:12:1, col:3> 'void'
      `-ImplicitCastExpr 0x50d9870 <col:1> 'void (*)(void)' <LValueToRValue>
        `-DeclRefExpr 0x50d9848 <col:1> 'void (*)(void)' lvalue Var 0x50d9620 'p' 'void (*)(void)'
Run Code Online (Sandbox Code Playgroud)

在这里,我们可以很容易地看到我们正在p通过CallExpr-> ImplicitCastExpr->进行调用DeclRefExpr。这样你就明白了p。但是,当然,您必须解释导致分配p- 在这种情况下并不太困难的代码,但想象一下x没有分配常量,除了“它”之外几乎不可能说出任何内容可以是foogoo取决于“的值x。它可能仍然需要一些工作来回溯到 的分配p,但应该是可行的。您可以查找对函数指针的赋值(通过识别指针、使用getPointeeTypethenisa<FunctionType>或类似的方法)。

要解析 llvm,您必须访问每条指令并找到导致调用的负载 - 当使用优化时,以相反的方式完成,通过将 替换为if (x) p = &foo; else p = &goo;p = &foo;然后意识到它p始终设置为单个值,因此不需要通过函数指针调用[在这个简单的情况下]。但 LLVM IR 本身并不跟踪数据的实际来源。一般来说,这是一个类似的原理,只是你离源代码更远,并且必须执行更多步骤来弄清楚被调用者是什么。

起点是函数或模块传递,这将在 LLVM 文档的本节中进行描述。

http://llvm.org/docs/WritingAnLLVMPass.html

我没有查看所有细节,但我想说这CallGraphSCCPass可能是一个很好的起点,因为它从被调用者开始,您可以沿着调用图向上移动,而不是向下移动。但可能不适合这种特殊情况,因为一切都发生在一个函数内 - 不确定。

正如我在评论中所说,对于微不足道的情况,这是可以完成的,但祝你好运,尝试遵循任何依赖于用户数据或不可编译时确定的函数的内容(当然,如果函数的结果是编译时可确定的 - 如果源已知并且影响输出的所有输入都已知,则它是编译时可确定的!)