OpenCV:C++和C性能比较

Art*_*huk 17 c c++ performance opencv

现在我正在使用OpenCV API(C++)开发一些应用程序.此应用程序使用视频处理.

在电脑上一切都很快.今天我决定在Android上移植这个应用程序(将相机用作视频输入).幸运的是,有适用于Android的OpenCV,所以我只是将我的本机代码添加到Android应用程序示例中.一切都很好,除了性能.我对我的应用程序进行了基准测试,发现该应用程序的工作速度为4-5 fps,实际上是不可接受的(我的设备有单一的1ghz处理器) - 我希望它能以大约10 fps的速度工作.

是否可以完全重写我的应用程序C?我知道使用这样的东西std::vector对开发人员来说很舒服,但我不关心它.

似乎OpenCV's C接口具有与接口相同的功能/方法C++.

我用Google搜索了这个问题,但没有发现任何东西.

谢谢你的建议.

Sam*_*Sam 56

我在Android和优化方面做了很多工作(我写了一个视频处理应用程序,在4ms内处理一个帧)所以我希望我会给你一些相关的答案.

OpenCV中的C和C++接口没有太大区别.有些代码是用C语言编写的,有一个C++包装器,有些反之亦然.两者之间的任何显着差异(由Shervin Emami测量)都是回归,错误修复或质量改进.你应该坚持使用最新的OpenCV版本.

为什么不重写?

你将花费大量的时间,你可以使用得更好.C接口很麻烦,引入错误或内存泄漏的可能性很高.在我看来,你应该避免它.

建议优化

A.开启优化.

编译器优化和缺少调试断言都会对运行时间产生很大影响.

B.描述您的应用.

首先在您的计算机上执行此操作,因为它更容易.使用visual studio profiler识别慢速部件.优化它们.永远不要优化,因为你觉得很慢,但因为你测量它.从最慢的功能开始,尽可能地优化它,然后慢一点.测量您的更改,以确保它确实更快.

C.专注于算法.

更快的算法可以提高数量级(100x)的性能.C++技巧可以为你提供2倍的性能提升.

经典技巧:

  • 调整视频帧的大小.通常,您可以从200x300px图像中提取信息,而不是1024x768.第一个区域小10倍.

  • 使用更简单的操作而不是复杂的操作.使用整数而不是浮点数.永远不要double在矩阵或for循环中使用数千次.

  • 做尽可能少的计算.您是否可以仅在图像的特定区域中跟踪对象,而不是对所有帧进行全部处理?您是否可以在非常小的图像上进行粗略/近似检测,然后在全帧中的ROI上进行细化?

D.在重要的地方使用C.

在循环中,使用C风格而不是C++可能是有意义的.指向数据矩阵或float数组的指针比mat.at或std :: vector <>快得多.通常瓶颈是嵌套循环.专注于它.在整个地方替换vector <>并对代码进行破坏是没有意义的.

E.避免隐藏成本

一些OpenCV函数将数据转换为double,处理它,然后转换回输入格式.要小心它们,它们会破坏移动设备的性能.示例:变形,缩放,类型转换.此外,已知颜色空间转换是懒惰的.喜欢直接从原生YUV获得的灰度.

F.使用矢量化

ARM处理器使用称为NEON的技术实现矢量化.学会使用它.它很强大!

一个小例子:

float* a, *b, *c;
// init a and b to 1000001 elements
for(int i=0;i<1000001;i++)
    c[i] = a[i]*b[i];
Run Code Online (Sandbox Code Playgroud)

可以改写如下.它更冗长,但速度更快.

float* a, *b, *c;
// init a and b to 1000001 elements
float32x4_t _a, _b, _c;
int i;
for(i=0;i<1000001;i+=4)
{  
    a_ = vld1q_f32( &a[i] ); // load 4 floats from a in a NEON register
    b_ = vld1q_f32( &b[i] );
    c_ = vmulq_f32(a_, b_); // perform 4 float multiplies in parrallel
    vst1q_f32( &c[i], c_); // store the four results in c
}
// the vector size is not always multiple of 4 or 8 or 16. 
// Process the remaining elements
for(;i<1000001;i++)
    c[i] = a[i]*b[i];
Run Code Online (Sandbox Code Playgroud)

纯粹主义者你必须用汇编语言写作,但对于一个有点令人生畏的普通程序员来说.我使用gcc内在函数得到了很好的结果,就像上面的例子一样.

跳转启动的另一种方法是将OpenCV中手工编码的SSE优化代码转换为NEON.SSE是Intel处理器中的NEON等价物,许多OpenCV功能都使用它,就像这里一样.这是uchar矩阵的图像过滤代码(常规图像格式).你不应该一个一个地盲目地转换指令,而是以它为例开始.

您可以在此博客和以下帖子中阅读有关NEON的更多信息.

G.注意图像捕捉

在移动设备上,它可能会出乎意料地慢.优化它是设备和操作系统特定的.

  • 不要使用OpenCV相机API.使用Java API捕获帧,并将它们传递给本机代码. (2认同)

Ale*_*son 6

在做出这样的决定之前,您应该分析您的代码以找到代码中的热点.如果没有这些信息,您为加快速度所做的任何更改都将是猜测.你试过这个Android NDK分析器吗?

  • @Astor如果这不起作用,你可以随时寻找在调试器中反复暂停应用程序的旧技巧,以了解它在大部分时间内花费的时间. (2认同)