ron*_*nag 10 c++ optimization sse simd micro-optimization
我注意到有时MSVC 2010根本没有重新排序SSE指令.我认为我不必关心循环中的指令顺序,因为编译器处理的最好,但似乎并非如此.
我该怎么想这个?什么决定最佳指令顺序?我知道某些指令具有比其他指令更高的延迟,并且某些指令可以在cpu级别上并行/异步运行.哪些指标与上下文相关?我在哪里可以找到它们?
我知道我可以通过剖析来避免这个问题,但是这些剖析器很昂贵(VTune XE)并且我想知道它背后的理论,而不仅仅是经验结果.
我也应该关心软件预取(_mm_prefetch
)还是我可以假设cpu会比我做得更好?
可以说我有以下功能.我应该交错一些指令吗?我应该在流之前做商店,按顺序做所有的负载,然后做计算等......?我是否需要考虑USWC与非USWC,以及时间与非时间?
auto cur128 = reinterpret_cast<__m128i*>(cur);
auto prev128 = reinterpret_cast<const __m128i*>(prev);
auto dest128 = reinterpret_cast<__m128i*>(dest;
auto end = cur128 + count/16;
while(cur128 != end)
{
auto xmm0 = _mm_add_epi8(_mm_load_si128(cur128+0), _mm_load_si128(prev128+0));
auto xmm1 = _mm_add_epi8(_mm_load_si128(cur128+1), _mm_load_si128(prev128+1));
auto xmm2 = _mm_add_epi8(_mm_load_si128(cur128+2), _mm_load_si128(prev128+2));
auto xmm3 = _mm_add_epi8(_mm_load_si128(cur128+3), _mm_load_si128(prev128+3));
// dest128 is USWC memory
_mm_stream_si128(dest128+0, xmm0);
_mm_stream_si128(dest128+1, xmm1);
_mm_stream_si128(dest128+2, xmm2);;
_mm_stream_si128(dest128+3, xmm3);
// cur128 is temporal, and will be used next time, which is why I choose store over stream
_mm_store_si128 (cur128+0, xmm0);
_mm_store_si128 (cur128+1, xmm1);
_mm_store_si128 (cur128+2, xmm2);
_mm_store_si128 (cur128+3, xmm3);
cur128 += 4;
dest128 += 4;
prev128 += 4;
}
std::swap(cur, prev);
Run Code Online (Sandbox Code Playgroud)
我同意每个人的看法,测试和调整是最好的方法.但是有一些技巧可以帮助它.
首先,MSVC 确实重新排序SSE指令.您的示例可能过于简单或已经非常优化.
一般来说,如果您有足够的寄存器来执行此操作,则完全交错往往会产生最佳结果.为了更进一步,展开你的循环足以使用所有寄存器,但不要太多溢出.在您的示例中,循环完全受内存访问的约束,因此没有太多空间可以做得更好.
在大多数情况下,没有必要使指令的顺序完美,以实现最佳性能.只要它"足够接近",编译器或硬件的无序执行都会为您解决问题.
我用来确定我的代码是否最优的方法是关键路径和瓶颈分析.在我编写循环之后,我查找哪些指令使用哪些资源.使用这些信息,我可以计算出性能的上限,然后我将其与实际结果进行比较,以查看我与最优的接近程度.
例如,假设我有一个包含100个加法和50个乘法的循环.在Intel和AMD(Bulldozer之前)上,每个核心可以支持每个周期一个SSE/AVX加法和一个SSE/AVX加法.由于我的循环有100个添加,我知道我不能做任何超过100个循环.是的,乘数将在一半的时间内闲置,但加法器是瓶颈.
现在我去循环我的循环,每次迭代我得到105个循环.这意味着我非常接近最优,并且没有太多可以获得.但是如果我得到250个循环,那么这意味着循环出错了,值得更多地修补它.
关键路径分析遵循相同的想法.查找所有指令的延迟,并找到循环关键路径的循环时间.如果您的实际表现非常接近,那么您已经是最佳选择了.
Agner Fog对当前处理器的内部细节有很好的参考:http://www.agner.org/optimize/microarchitecture.pdf
我只是使用VS2010 32位编译器构建它,我得到以下内容:
void F (void *cur, const void *prev, void *dest, int count)
{
00901000 push ebp
00901001 mov ebp,esp
00901003 and esp,0FFFFFFF8h
__m128i *cur128 = reinterpret_cast<__m128i*>(cur);
00901006 mov eax,220h
0090100B jmp F+10h (901010h)
0090100D lea ecx,[ecx]
const __m128i *prev128 = reinterpret_cast<const __m128i*>(prev);
__m128i *dest128 = reinterpret_cast<__m128i*>(dest);
__m128i *end = cur128 + count/16;
while(cur128 != end)
{
auto xmm0 = _mm_add_epi8(_mm_load_si128(cur128+0), _mm_load_si128(prev128+0));
00901010 movdqa xmm0,xmmword ptr [eax-220h]
auto xmm1 = _mm_add_epi8(_mm_load_si128(cur128+1), _mm_load_si128(prev128+1));
00901018 movdqa xmm1,xmmword ptr [eax-210h]
auto xmm2 = _mm_add_epi8(_mm_load_si128(cur128+2), _mm_load_si128(prev128+2));
00901020 movdqa xmm2,xmmword ptr [eax-200h]
auto xmm3 = _mm_add_epi8(_mm_load_si128(cur128+3), _mm_load_si128(prev128+3));
00901028 movdqa xmm3,xmmword ptr [eax-1F0h]
00901030 paddb xmm0,xmmword ptr [eax-120h]
00901038 paddb xmm1,xmmword ptr [eax-110h]
00901040 paddb xmm2,xmmword ptr [eax-100h]
00901048 paddb xmm3,xmmword ptr [eax-0F0h]
// dest128 is USWC memory
_mm_stream_si128(dest128+0, xmm0);
00901050 movntdq xmmword ptr [eax-20h],xmm0
_mm_stream_si128(dest128+1, xmm1);
00901055 movntdq xmmword ptr [eax-10h],xmm1
_mm_stream_si128(dest128+2, xmm2);;
0090105A movntdq xmmword ptr [eax],xmm2
_mm_stream_si128(dest128+3, xmm3);
0090105E movntdq xmmword ptr [eax+10h],xmm3
// cur128 is temporal, and will be used next time, which is why I choose store over stream
_mm_store_si128 (cur128+0, xmm0);
00901063 movdqa xmmword ptr [eax-220h],xmm0
_mm_store_si128 (cur128+1, xmm1);
0090106B movdqa xmmword ptr [eax-210h],xmm1
_mm_store_si128 (cur128+2, xmm2);
00901073 movdqa xmmword ptr [eax-200h],xmm2
_mm_store_si128 (cur128+3, xmm3);
0090107B movdqa xmmword ptr [eax-1F0h],xmm3
cur128 += 4;
00901083 add eax,40h
00901086 lea ecx,[eax-220h]
0090108C cmp ecx,10h
0090108F jne F+10h (901010h)
dest128 += 4;
prev128 += 4;
}
}
Run Code Online (Sandbox Code Playgroud)
这表明编译器正在重新排序指令,遵循"在写入寄存器后不立即使用寄存器"的一般规则.它还将两个加载和一个加载转换为单个加载和内存添加.您没有理由不能自己编写这样的代码并使用所有SIMD寄存器而不是您当前使用的四个寄存器.您可能希望将加载的总字节数与缓存行的大小相匹配.这将使硬件预取有机会在您需要之前填充下一个缓存行.
此外,预取,特别是在代码中顺序读取存储器,通常不是必需的.MMU一次最多可预取四个流.