我发现gcc中的不同编译器优化级别在循环中访问本地或全局变量时会产生完全不同的结果.这让我感到惊讶的原因是,如果访问一种类型的变量比访问另一种变量更可优化,我认为gcc优化会利用这一事实.这里有两个例子(在C++中,但它们的C对应物实际上给出了相同的时间):
global = 0;
for (int i = 0; i < SIZE; i++)
global++;
Run Code Online (Sandbox Code Playgroud)
它使用一个全局变量long global,对
long tmp = 0;
for (int i = 0; i < SIZE; i++)
tmp++;
global = tmp;
Run Code Online (Sandbox Code Playgroud)
在优化级别-O0,时间基本相等(如我所料),在-O1它稍快但仍然相等,但是从-O2使用全局变量的版本要快得多(大约7倍).
另一方面,在下面的代码片段中,起始点指向大小为SIZE的字节块:
global = 0;
for (const char* p = start; p < start + SIZE; p++)
global += *p;
Run Code Online (Sandbox Code Playgroud)
与
long tmp = 0;
for (const char* p = start; p < start + SIZE; p++)
tmp += *p;
global = tmp;
Run Code Online (Sandbox Code Playgroud)
这里的-O0时间很接近,虽然使用局部变量的版本稍微快一点,这似乎并不太令人惊讶,因为它可能会存储在寄存器中,而global …