获取LLVM值的原始变量名称

Wil*_*ill 19 compiler-construction llvm clang debug-symbols llvm-ir

llvm::User(例如指令)的操作数是llvm::Values.

mem2reg传递之后,变量采用SSA形式,并且它们与原始源代码对应的名称将丢失. Value::getName()只是针对某些事情; 对于大多数变量,它们是中介,它没有设置.

instnamer通可以运行给所有的变量的名称,如TMP1TMP2,但这并不能捕捉到他们最初来自.这是原始C代码旁边的一些LLVM IR:

在此输入图像描述

我正在构建一个简单的html页面来可视化和调试我正在进行的一些优化,并且我想将SSA变量显示为名称ver表示法,而不仅仅是临时的instnamer名称.它只是为了帮助我的可读性.

我通过命令行来获取我的LLVM IR,例如:

 clang -g3 -O1 -emit-llvm -o test.bc -c test.c
Run Code Online (Sandbox Code Playgroud)

在国际关系中有电话llvm.dbg.declare和电话llvm.dbg.value; 你如何变成原始的源代码名称和SSA版本号?

那么如何从一个llvm::Value?确定原始变量(或命名常量名称)?调试器必须能够做到这一点,所以我该怎么办?

Eli*_*sky 12

这是以元数据形式附加到LLVM IR的调试信息的一部分.文档在这里.还提供了一些带有一些背景知识的旧帖子.


$ cat  > z.c
long fact(long arg, long farg, long bart)
{
    long foo = farg + bart;
    return foo * arg;
}

$ clang -emit-llvm -O3 -g -c z.c
$ llvm-dis z.bc -o -
Run Code Online (Sandbox Code Playgroud)

产生这个:

define i64 @fact(i64 %arg, i64 %farg, i64 %bart) #0 {
entry:
  tail call void @llvm.dbg.value(metadata !{i64 %arg}, i64 0, metadata !10), !dbg !17
  tail call void @llvm.dbg.value(metadata !{i64 %farg}, i64 0, metadata !11), !dbg !17
  tail call void @llvm.dbg.value(metadata !{i64 %bart}, i64 0, metadata !12), !dbg !17
  %add = add nsw i64 %bart, %farg, !dbg !18
  tail call void @llvm.dbg.value(metadata !{i64 %add}, i64 0, metadata !13), !dbg !18
  %mul = mul nsw i64 %add, %arg, !dbg !19
  ret i64 %mul, !dbg !19
}
Run Code Online (Sandbox Code Playgroud)

随着-O0替代的-O3,你不会看到llvm.dbg.value,但你会看到llvm.dbg.declare.

  • @Will:clang不会发出`llvm.dbg.value`.当它们将值放入寄存器(而不是更容易访问的堆栈槽)时,优化会发出它们. (2认同)

Oak*_*Oak 6

给定a Value,从中获取变量名称可以通过遍历封闭函数中的所有llvm.dbg.declarellvm.dbg.value调用来完成,检查是否有任何引用该值,如果是,则返回DIVariable与该内部调用相关联的值.

所以,代码应该看起来像(粗略,未测试甚至编译):

const Function* findEnclosingFunc(const Value* V) {
  if (const Argument* Arg = dyn_cast<Argument>(V)) {
    return Arg->getParent();
  }
  if (const Instruction* I = dyn_cast<Instruction>(V)) {
    return I->getParent()->getParent();
  }
  return NULL;
}

const MDNode* findVar(const Value* V, const Function* F) {
  for (const_inst_iterator Iter = inst_begin(F), End = inst_end(F); Iter != End; ++Iter) {
    const Instruction* I = &*Iter;
    if (const DbgDeclareInst* DbgDeclare = dyn_cast<DbgDeclareInst>(I)) {
      if (DbgDeclare->getAddress() == V) return DbgDeclare->getVariable();
    } else if (const DbgValueInst* DbgValue = dyn_cast<DbgValueInst>(I)) {
      if (DbgValue->getValue() == V) return DbgValue->getVariable();
    }
  }
  return NULL;
}

StringRef getOriginalName(const Value* V) {
  // TODO handle globals as well

  const Function* F = findEnclosingFunc(V);
  if (!F) return V->getName();

  const MDNode* Var = findVar(V, F);
  if (!Var) return "tmp";

  return DIVariable(Var).getName();
}
Run Code Online (Sandbox Code Playgroud)

你可以看到上面我懒得添加全局变量的处理,但它实际上并不是那么大 - 这需要迭代当前编译单元调试信息下列出的所有全局变量(用于M.getNamedMetadata("llvm.dbg.cu")获取所有编译单元的列表)当前模块),然后检查哪个匹配您的变量(通过getGlobal方法)并返回其名称.

但是,请记住,上述内容仅适用于与原始变量直接关联的值.任何计算结果的任何值都不会以这种方式正确命名; 特别是,表示字段访问的值不会使用字段名称命名.这是可行的,但需要更多涉及的处理 - 您必须从GEP中识别字段编号,然后深入了解结构的类型调试信息以获取字段名称.调试器这样做,是的,但没有调试器在LLVM IR域中运行 - 据我所知,即使LLVM自己的LLDB工作方式不同,也可以将目标文件中的DWARF解析为Clang类型.