为什么要将全局偏移表用于共享库本身中定义的符号?

A. *_* S. 5 c++ assembly symbols dynamic-linking got

考虑以下简单的共享库源代码:

library.cpp:

static int global = 10;

int foo()
{
    return global;
}
Run Code Online (Sandbox Code Playgroud)

-fPICclang中的option 编译,它会导致以下对象汇编(x86-64):

foo(): # @foo()
  push rbp
  mov rbp, rsp
  mov eax, dword ptr [rip + global]
  pop rbp
  ret
global:
  .long 10 # 0xa
Run Code Online (Sandbox Code Playgroud)

由于符号是在库中定义的,因此编译器按预期使用PC相对地址: mov eax, dword ptr [rip + global]

但是,如果我们更改static int global = 10;int global = 10;具有外部链接的符号,则结果汇编为:

foo(): # @foo()
  push rbp
  mov rbp, rsp
  mov rax, qword ptr [rip + global@GOTPCREL]
  mov eax, dword ptr [rax]
  pop rbp
  ret
global:
  .long 10 # 0xa
Run Code Online (Sandbox Code Playgroud)

如您所见,编译器在全局偏移表中添加了一个间接层,在这种情况下,似乎完全没有必要,因为该符号仍在同一库(和源文件)中定义。

如果符号是在另一个共享库中定义的,则必须使用GOT,但是在这种情况下,它会显得多余。为什么编译器仍将此符号添加到GOT?

注意:我相信这个问题与此类似,但是答案可能不适当,可能是由于缺乏细节。

Ros*_*dge 7

全局偏移表有两个目的。一种是允许动态链接器“插入”与可执行文件或其他共享对象不同的变量定义。第二个是允许生成位置无关代码以引用某些处理器架构上的变量。

ELF 动态链接将整个进程、可执行文件和所有共享对象(动态库)视为共享一个全局命名空间。如果多个组件(可执行文件或共享对象)定义了相同的全局符号,那么动态链接器通常会选择该符号的一个定义,并且所有组件中对该符号的所有引用都引用该定义。(但是,ELF 动态符号解析很复杂,由于各种原因,不同的组件最终可能会使用同一全局符号的不同定义。)

为了实现这一点,在构建共享库时,编译器将通过 GOT 间接访问全局变量。对于每个变量,将在 GOT 中创建一个包含指向该变量的指针的条目。如您的示例代码所示,编译器将使用此条目来获取变量的地址,而不是尝试直接访问它。当共享对象加载到进程中时,动态链接器将确定是否有任何全局变量已被另一个组件中的变量定义取代。如果是这样,那些全局变量将更新其 GOT 条目以指向替代变量。

通过使用“隐藏的”或“受保护的”ELF 可见性属性,可以防止全局定义的符号被另一个组件中的定义取代,从而消除在某些体系结构上使用 GOT 的需要。例如:

extern int global_visible;
extern int global_hidden __attribute__((visibility("hidden")));
static volatile int local;  // volatile, so it's not optimized away

int
foo() {
    return global_visible + global_hidden + local;
}
Run Code Online (Sandbox Code Playgroud)

使用-O3 -fPICGCC 的 x86_64 端口编译时会生成:

foo():
        mov     rcx, QWORD PTR global_visible@GOTPCREL[rip]
        mov     edx, DWORD PTR local[rip]
        mov     eax, DWORD PTR global_hidden[rip]
        add     eax, DWORD PTR [rcx]
        add     eax, edx
        ret 
Run Code Online (Sandbox Code Playgroud)

正如你所看到的,只是global_visible使用了GOT,global_hidden并且local不使用它。“受保护”可见性的工作原理类似,它防止定义被取代,但使其对动态链接器仍然可见,以便其他组件可以访问它。“隐藏”可见性完全隐藏了动态链接器中的符号。

使代码可重定位以允许共享对象在不同进程中加载​​到不同地址的必要性意味着静态分配的变量,无论它们具有全局作用域还是局部作用域,在大多数体系结构上都不能通过单个指令直接访问。我所知道的唯一例外是 64 位 x86 架构,如上所示。它支持既与 PC 相关的内存操作数,又具有大的 32 位位移,可以到达同一组件中定义的任何变量。

在所有其他架构上,我熟悉以位置相关方式访问变量需要多条指令。具体如何因架构而异,但通常涉及使用 GOT。例如,如果您使用以下-m32 -O3 -fPIC选项使用 GCC 的 x86_64 端口编译上面的示例 C 代码:

foo():
        call    __x86.get_pc_thunk.dx
        add     edx, OFFSET FLAT:_GLOBAL_OFFSET_TABLE_
        push    ebx
        mov     ebx, DWORD PTR global_visible@GOT[edx]
        mov     ecx, DWORD PTR local@GOTOFF[edx]
        mov     eax, DWORD PTR global_hidden@GOTOFF[edx]
        add     eax, DWORD PTR [ebx]
        pop     ebx
        add     eax, ecx
        ret
__x86.get_pc_thunk.dx:
        mov     edx, DWORD PTR [esp]
        ret
Run Code Online (Sandbox Code Playgroud)

GOT 用于所有三个变量访问,但是如果您仔细观察global_hidden并且local处理方式与global_visible. 对于后者,指向变量的指针通过 GOT 访问,前两个变量通过 GOT 直接访问。在 GOT 用于所有位置独立变量引用的体系结构中,这是一个相当常见的技巧。

32 位 x86 体系结构在这方面的一个方面是特殊的,因为它具有大的 32 位位移和 32 位地址空间。这意味着可以通过 GOT 库访问内存中的任何地方,而不仅仅是 GOT 本身。大多数其他架构只支持更小的位移,这使得某些东西与 GOT 基础的最大距离要小得多。使用此技巧的其他体系结构只会将小(局部/隐藏/受保护)变量放在 GOT 本身中,大变量存储在 GOT 之外,并且 GOT 将包含一个指向该变量的指针,就像普通可见性全局变量一样。