在我用C++编写的AI应用程序中,
在这种情况下,有没有任何优化技术?虽然我现在不打算优化应用程序,但为项目选择C++而不是Java的一个方面是提供更多的优势,以便能够使用非面向对象的方法(模板,过程,重载).
特别是,与虚拟功能相关的优化技术是什么?虚函数通过内存中的虚拟表实现.有没有办法将这些虚拟表预取到L2缓存上(从内存/ L2缓存中获取的成本正在增加)?
除此之外,C++中的数据局部技术是否有很好的参考?这些技术将减少数据提取到计算所需的L2高速缓存的等待时间.
lou*_*dej 28
虚函数非常有效.假设32位指针,内存布局大约是:
classptr -> [vtable:4][classdata:x]
vtable -> [first:4][second:4][third:4][fourth:4][...]
first -> [code:x]
second -> [code:x]
...
Run Code Online (Sandbox Code Playgroud)
classptr指向通常在堆上的内存,偶尔在堆栈上,并以指向该类的vtable的四字节指针开始.但要记住的重要一点是vtable本身没有分配内存.它是一个静态资源,同一类类型的所有对象都将指向其vtable数组的完全相同的内存位置.调用不同的实例不会将不同的内存位置拉入L2缓存.
来自msdn的这个例子显示了具有虚拟func1,func2和func3的类A的vtable.不超过12个字节.很有可能不同类的vtable也将在编译库中物理上相邻(您需要验证这是您特别关注的),这可以在显微镜下提高缓存效率.
CONST SEGMENT
??_7A@@6B@
DD FLAT:?func1@A@@UAEXXZ
DD FLAT:?func2@A@@UAEXXZ
DD FLAT:?func3@A@@UAEXXZ
CONST ENDS
Run Code Online (Sandbox Code Playgroud)
另一个性能问题是调用vtable函数的指令开销.这也非常有效.几乎与调用非虚函数相同.再次来自msdn的例子:
; A* pa;
; pa->func3();
mov eax, DWORD PTR _pa$[ebp]
mov edx, DWORD PTR [eax]
mov ecx, DWORD PTR _pa$[ebp]
call DWORD PTR [edx+8]
Run Code Online (Sandbox Code Playgroud)
在此示例ebp中,堆栈帧基指针具有A* pa零偏移量的变量.寄存器eax加载了位置[ebp]的值,因此它具有A*,edx加载了位置[eax]的值,因此它具有A类vtable.然后ecx加载[ebp],因为ecx表示"this"它现在保持A*,最后调用位置[edx + 8]的值,这是vtable中的第三个函数地址.
如果此函数调用不是虚拟的,则不需要mov eax和mov edx,但性能上的差异将是无法估量的.
| 归档时间: |
|
| 查看次数: |
5353 次 |
| 最近记录: |