Visual Studio 2012不同的值释放/调试模式

Question

Visual Studio 2012不同的值释放/调试模式

use*_*605 33 c++ visual-c++ compiler-bug visual-studio-2012 visual-studio-2013

在调试和发布模式之间切换时,此代码在MSVS 2012,Windows 7中生成不同的值:

#include <iostream>
using namespace std;

int A[20000];

int main() {

    int shift = 0;
    int Period = 30;
    //Fill array
    for(int i = 0; i < 20000; i++) {
        A[i] = i * 2 + 123;
    }

    int sumTotal = 0;
    int sum = 0;

    for(int bars = Period + 10; bars < 1000; bars++) {
        sum = 0;
        for(int i = 0; i< Period; i++) {
            sum += A[bars - i];
        }
        sumTotal += sum;
    }
    cout << sumTotal << endl;
}

Run Code Online (Sandbox Code Playgroud)

你能复制还是找到原因？我一直在测试项目属性的各种设置.

调试(正确的结果):32630400
发布:32814720

/GS /GL /analyze- /W3 /Gy /Zc:wchar_t /I"C:\Program Files (x86)\Visual Leak Detector\include" /Z7 /Gm- /O2 /Fd"Release\vc110.pdb" /fp:precise /D "WIN32" /D "NDEBUG" /D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /errorReport:prompt /WX- /Zc:forScope /Gd /Oy- /Oi /MD /Fa"Release\" /EHsc /nologo /Fo"Release\" /Fp"Release\Testing.pch"

Answer 1

AnT*_*AnT 18

我使用VS2012 C编译器测试了代码的"简化"版本

int main()
{
  int A[12] = { 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 };

  int sum = 0;
  int i;

  for (i = 0; i < 12; ++i)
     sum += A[11 - i];

  printf("%d\n", sum);

  return 0;
}

Run Code Online (Sandbox Code Playgroud)

我在x64模式下编译了发布配置,针对速度进行了优化.该错误仍然存在,但根据其他优化和代码生成设置,它会以不同方式显示出来.一个版本的代码生成"随机"结果,而另一个版本始终生8成为总和(而不是正确的12).

这是生成的代码对于始终生成的版本的样子 8

000000013FC81DF0  mov         rax,rsp  
000000013FC81DF3  sub         rsp,68h  
000000013FC81DF7  movd        xmm1,dword ptr [rax-18h]  
000000013FC81DFC  movd        xmm2,dword ptr [rax-10h]  
000000013FC81E01  movd        xmm5,dword ptr [rax-0Ch]  
000000013FC81E06  xorps       xmm0,xmm0  
000000013FC81E09  xorps       xmm3,xmm3  

for (i = 0; i < 12; ++i)
000000013FC81E0C  xor         ecx,ecx  
000000013FC81E0E  mov         dword ptr [rax-48h],1  
000000013FC81E15  mov         dword ptr [rax-44h],1  
000000013FC81E1C  mov         dword ptr [rax-40h],1  
000000013FC81E23  punpckldq   xmm2,xmm1  
000000013FC81E27  mov         dword ptr [rax-3Ch],1  
000000013FC81E2E  mov         dword ptr [rax-38h],1  
000000013FC81E35  mov         dword ptr [rax-34h],1  
{
     sum += A[11 - i];
000000013FC81E3C  movdqa      xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013FC83360h)]  
000000013FC81E44  paddd       xmm4,xmm0  
000000013FC81E48  movd        xmm0,dword ptr [rax-14h]  
000000013FC81E4D  mov         dword ptr [rax-30h],1  
000000013FC81E54  mov         dword ptr [rax-2Ch],1  
000000013FC81E5B  mov         dword ptr [rax-28h],1  
000000013FC81E62  mov         dword ptr [rax-24h],1  
000000013FC81E69  punpckldq   xmm5,xmm0  
000000013FC81E6D  punpckldq   xmm5,xmm2  
000000013FC81E71  paddd       xmm5,xmm3  
000000013FC81E75  paddd       xmm5,xmm4  
000000013FC81E79  mov         dword ptr [rax-20h],1  
000000013FC81E80  mov         dword ptr [rax-1Ch],1  
000000013FC81E87  mov         r8d,ecx  
000000013FC81E8A  movdqa      xmm0,xmm5  
000000013FC81E8E  psrldq      xmm0,8  
000000013FC81E93  paddd       xmm5,xmm0  
000000013FC81E97  movdqa      xmm0,xmm5  
000000013FC81E9B  lea         rax,[rax-40h]  
000000013FC81E9F  mov         r9d,2  
000000013FC81EA5  psrldq      xmm0,4  
000000013FC81EAA  paddd       xmm5,xmm0  
000000013FC81EAE  movd        edx,xmm5  
000000013FC81EB2  nop         word ptr [rax+rax]  
{
     sum += A[11 - i];
000000013FC81EC0  add         ecx,dword ptr [rax+4]  
000000013FC81EC3  add         r8d,dword ptr [rax]  
000000013FC81EC6  lea         rax,[rax-8]  
000000013FC81ECA  dec         r9  
000000013FC81ECD  jne         main+0D0h (013FC81EC0h)  
}

printf("%d\n", sum);
000000013FC81ECF  lea         eax,[r8+rcx]  
000000013FC81ED3  lea         rcx,[__security_cookie_complement+8h (013FC84040h)]  
000000013FC81EDA  add         edx,eax  
000000013FC81EDC  call        qword ptr [__imp_printf (013FC83140h)]  

return 0;
000000013FC81EE2  xor         eax,eax  
}
000000013FC81EE4  add         rsp,68h  
000000013FC81EE8  ret

Run Code Online (Sandbox Code Playgroud)

代码生成器和优化器遗留了许多奇怪的,看似不必要的mumbo-jumbo,但是这段代码的功能可以简要描述如下.

有两种独立的算法用于产生最终总和,这显然应该处理阵列的不同部分.我猜两个处理流程(非SSE和SSE)用于通过指令流水线来促进并行性.

一种算法是一个简单的循环,它对数组元素求和,每次迭代处理两个元素.它可以从上面的"交错"代码中提取如下

; Initialization
000000013F1E1E0C  xor         ecx,ecx                 ; ecx - odd element sum
000000013F1E1E87  mov         r8d,ecx                 ; r8 - even element sum
000000013F1E1E9B  lea         rax,[rax-40h]           ; start from i = 2
000000013F1E1E9F  mov         r9d,2                   ; do 2 iterations

; The cycle
000000013F1E1EC0  add         ecx,dword ptr [rax+4]   ; ecx += A[i + 1]
000000013F1E1EC3  add         r8d,dword ptr [rax]     ; r8d += A[i]
000000013F1E1EC6  lea         rax,[rax-8]             ; i -= 2
000000013F1E1ECA  dec         r9                      
000000013F1E1ECD  jne         main+0D0h (013F1E1EC0h) ; loop again if r9 is not zero

Run Code Online (Sandbox Code Playgroud)

这个算法开始从地址中添加元素rax - 40h,这在我的实验中是等于的,&A[2]并且使两个迭代向后跳过两个元素.这种积累的总和A[0],并A[2]在登记r8和金额A[1]和A[3]注册ecx.因此,该算法的这部分处理该阵列的4种元素和正确生成的值2在两个r8和ecx.

算法的另一部分是使用SSE指令编写的,显然负责对数组的剩余部分求和.它可以从代码中提取如下

; Initially xmm5 is zero
000000013F1E1E3C  movdqa      xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013F1E3360h)]  
000000013F1E1E75  paddd       xmm5,xmm4  

000000013F1E1E8A  movdqa      xmm0,xmm5               ; copy
000000013F1E1E8E  psrldq      xmm0,8                  ; shift
000000013F1E1E93  paddd       xmm5,xmm0               ; and add

000000013F1E1E8A  movdqa      xmm0,xmm5               ; copy
000000013F1E1E8E  psrldq      xmm0,4                  ; shift
000000013F1E1E93  paddd       xmm5,xmm0               ; and add

000000013F1E1EAE  movd        edx,xmm5                ; edx - the sum

Run Code Online (Sandbox Code Playgroud)

该部分使用的通用算法很简单:它将值0x00000001000000010000000100000001放在128位寄存器中xmm5,然后将其向右移动8个字节(0x00000000000000000000000100000001)并将其添加到原始值,生成0x00000001000000010000000200000002.这再次向右移动4个字节(0x00000000000000010000000100000002)并再次添加到前一个值,生成0x00000001000000020000000300000004.最后的32位字0x00000004的xmm5被作为结果并放入寄存器edx.因此,该算法产生4最终结果.很明显,该算法只是在128位寄存器中执行连续32位字的"并行"加法.注意,BTW该算法甚至没有尝试访问A,它从编译器/优化器产生的嵌入常量开始求和.

现在,最后将值r8 + ecx + edx报告为最终总和.显然,这只是8,而不是正确的12.看起来这两种算法中的一种忘记了它的一些工作.我不知道是哪一个,而是由大量的"冗余"的指令,它看起来就像是上证所算法应该产生判断8的edx,而不是4.这是一个可疑的指令

000000013FC81E71  paddd       xmm5,xmm3

Run Code Online (Sandbox Code Playgroud)

那时xmm3总是包含零.因此,该指令看起来完全冗余且不必要.但是如果xmm3实际上包含另一个代表阵列的另外4个元素的"魔术"常量(就像xmm4那样),那么算法将正常工作并产生适当的总和.

如果对数组元素使用不同的初始值

int A[12] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 };

Run Code Online (Sandbox Code Playgroud)

可以清楚地看到,第一(非SSE)算法成功求和1, 2, 3, 4,而第二(SSE)算法求和9, 10, 11, 12.5, 6, 7, 8仍被排除在考虑范围之外,导致52作为最终总和而不是正确的78.

这绝对是编译器/优化器的错误.

PS导入到VS2013 Update 2中的相同设置的相同项目似乎没有受到此错误的影响.

Answer 2

dlf*_*dlf 15

我相信你在优化器中发现了一个错误.您可以通过禁用优化或通过添加额外的代码来获得与cout << "hi"内部for循环内部无法优化的副作用(这可能会阻止任何优化),从而获得发布版本以提供与调试版本相同(正确)的输出否则执行不正确).我建议向微软报告.

更新:Microsoft确认这是与自动矢量化相关的错误,并且已在VS2013更新2中修复.其他版本的解决方法是通过为循环添加前缀来禁用矢量化#pragma loop(no_vector).

此外,他们描述了两种可以触发bug的不同循环结构.我会引用它们:

错误有两种情况:

1)当用户burzvingion提到时,循环得到形式的矢量化:

for(int i = 0; ...){sum = A [...] - sum; }

2)得到形式矢量化的循环:

for(int i = 0; ...){sum = sum + A [ - i]; }

他们还提出以下建议来查找易受攻击的代码:

如果您正在查看源代码以尝试查找这些情况,我建议首先抛出/ Qvec-report:1来查找所有已进行矢量化的循环,并从那里开始.要解决这些错误,请将#pragma loop(no_vector)放在for循环之上.

https://connect.microsoft.com/VisualStudio/feedback/details/893189/likely-bug-in-vc-2012-2013-optimizer (2认同)

Answer 3

bar*_*nos 5

产生优化错误的代码可以减少到以下:

#include <iostream>
using namespace std;

#define SIZE 12

int main()
{
    int A[SIZE] = {0};

    int sum = 0;
    for (int i=0; i<SIZE; i++)
        sum += A[SIZE-1-i];
    cout << sum << endl;

    return 0;
}

Run Code Online (Sandbox Code Playgroud)

可以通过应用以下任一更改来删除优化错误:

将定义更改为SIZE低于12的值
将表达式更改A[SIZE-1-i]为A[SIZE-i-1]
将操作移动cout << sum << endl到循环中

因此,为了诊断问题,我们可以简单地应用这些更改中的任何一个,然后在更改之前的代码的反汇编和更改之后的代码的反汇编之间进行比较.

归档时间：	11 年，7 月前
查看次数：	1869 次
最近记录：	11 年，7 月前