标签: computer-vision

如何使用ffmpeg从H264视频文件中提取高质量的JPEG图像?

目前我正在使用此命令来提取图像:

ffmpeg.exe -i 10fps.h264 -r 10 -f image2 10fps.h264_%03d.jpeg

但是如何提高JPEG图像质量呢?

graphics video ffmpeg computer-vision sharpffmpeg

92
推荐指数
2
解决办法
10万
查看次数

什么是"语义分割"与"分割"和"场景标记"相比?

语义分割只是一个Pleonasm还是"语义分割"和"分割"之间存在差异?"场景标记"或"场景解析"有区别吗?

像素级和像素级分割有什么区别?

(旁边问题:当你有这种像素方式的注释时,你是否可以免费获得物体检测,还是还有什么可做的?)

请提供您的定义来源.

使用"语义分割"的来源

使用"场景标签"的来源

使用"像素级"的来源

  • Pinheiro,Pedro O.和Ronan Collobert:"从卷积网络的图像级到像素级标签." 2015年计算机视觉和模式识别会议论文集.(见http://arxiv.org/abs/1411.6228)

使用"pixelwise"的来源

谷歌Ngrams

"语义分割"似乎最近比"场景标记"更多地使用

在此输入图像描述

image-processing object-detection computer-vision image-segmentation semantic-segmentation

92
推荐指数
3
解决办法
5万
查看次数

如何在Tesseract和OpenCV之间进行选择?

我最近遇到了TesseractOpenCV.看起来Tesseract是一个成熟的OCR引擎,OpenCV可以用作创建OCR应用程序/服务的框架.

我尝试在我的一些图像上使用Tesseract,它的准确性似乎不错.后来,我遇到了一个非常简单的使用OpenCV来使用Python执行OCR的教程,并给人留下了深刻的印象.几分钟后,我完成了系统的培训,其准确性很好.但是,当然,采用这种方法意味着我需要使用大型训练集来广泛训练我的系统.

我的具体问题如下:

  • 如何在Tesseract和使用OpenCV构建自定义OCR应用程序之间进行选择?
  • 有针对不同语言的Tesseract提供的培训数据集.OpenCV是否有类似的东西,以便我不必开始实现OCR?
  • 对于想成为商业应用程序哪个更好?

有什么建议?

注意:我24小时在计算机视觉领域,但我愿意花时间和精力学习先决条件.

python ocr opencv tesseract computer-vision

86
推荐指数
3
解决办法
6万
查看次数

物体检测和计算机视觉中的mAP度量

在计算机视觉和物体检测中,常用的评估方法是mAP.它是什么以及如何计算?

metrics machine-learning vision detection computer-vision

83
推荐指数
4
解决办法
5万
查看次数

如何使用Python找到Wally?

无耻地跳上潮流:-)

灵感来自我如何找到带有Mathematica的Waldo和后续如何找到Waldo with R,作为一个新的python用户,我很想知道如何做到这一点.看起来python比R更适合这个,我们不必像Mathematica或Matlab那样担心许可证.

在下面的例子中,显然只使用条纹是行不通的.如果能够制定一个简单的基于规则的方法来处理诸如此类的困难例子,那将会很有趣.

在沙滩上

我已经添加了[机器学习]标签,因为我认为正确的答案必须使用ML技术,例如Gregory Klopper在原始主题中提倡的Restricted Boltzmann Machine(RBM)方法.python中有一些RBM代码可能是一个很好的起点,但显然需要训练数据.

2009年IEEE国际信号处理机器学研讨会(MLSP 2009)上,他们举办了数据分析竞赛:Wally在哪里?.训练数据以matlab格式提供.请注意,该网站上的链接已经死亡,但是数据(以及Sean McLoone及其同事采用的方法的来源可以在这里找到(参见SCM链接).看起来像是一个开始的地方.

python machine-learning image-processing computer-vision

81
推荐指数
1
解决办法
1万
查看次数

Viola-Jones的脸部检测声称拥有180k功能

我一直在实施Viola-Jones的人脸检测算法.该技术依赖于在图像内放置24×24像素的子帧,并且随后在每个位置中将矩形特征放置在每个位置中,并且每种尺寸都可能.

这些特征可以包括两个,三个或四个矩形.提供以下示例.

矩形功能

他们声称详尽的集合超过180k(第2部分):

鉴于探测器的基本分辨率为24x24,详尽的矩形特征集非常大,超过180,000.请注意,与Haar基础不同,矩形特征集是过度完整的.

本文未明确说明以下陈述,因此它们是我的假设:

  1. 只有2个双矩形特征,2个三矩形特征和1个四矩形特征.这背后的逻辑是我们正在观察突出显示的矩形之间的差异,而不是明确的颜色或亮度或那种类型的任何东西.
  2. 我们不能将特征类型A定义为1x1像素块; 它必须至少至少1x2像素.此外,类型D必须至少为2x2像素,并且此规则相应地适用于其他功能.
  3. 我们不能将特征类型A定义为1×3像素块,因为中间像素不能被分割,并且从其自身减去它与1×2像素块相同; 此要素类型仅针对偶数宽度定义.此外,要素类型C的宽度必须可以被3整除,并且此规则相应地适用于其他要素.
  4. 我们无法定义宽度和/或高度为0 的要素.因此,我们将xy迭代为24减去要素的大小.

基于这些假设,我计算了详尽的集合:

const int frameSize = 24;
const int features = 5;
// All five feature types:
const int feature[features][2] = {{2,1}, {1,2}, {3,1}, {1,3}, {2,2}};

int count = 0;
// Each feature:
for (int i = 0; i < features; i++) {
    int sizeX = feature[i][0];
    int sizeY = feature[i][1];
    // Each position:
    for (int x = 0; x <= …
Run Code Online (Sandbox Code Playgroud)

algorithm image-processing computer-vision face-detection viola-jones

78
推荐指数
2
解决办法
2万
查看次数

如何从图像中识别车牌/号牌(ANPR)?

我有一个网站,允许用户上传汽车的图像,我想放置一个隐私过滤器来检测车辆上的登记牌并模糊它们.

模糊不是问题,但有一个库或组件(首选开源)有助于在照片中找到许可证吗?

注意事项;

  1. 我知道没有什么是完美的,这种类型的图像识别将提供误报和否定.
  2. 我感谢我们可以要求用户选择要模糊的区域,我们也会这样做,但问题是关于以编程方式查找数据; 所以诸如"让一个人检查每个图像"之类的答案是没有用的.
  3. 这种软件方法在英国被称为"自动车牌识别",但我看不出它作为库的任何实现.
  4. 虽然.Net是首选,但任何语言都很棒.

ocr image computer-vision anpr

67
推荐指数
6
解决办法
10万
查看次数

如何在OpenCV中定义Watershed的标记?

我正在用OpenCV为Android写作.我正在使用标记控制的分水岭分割类似于下面的图像,而无需用户手动标记图像.我打算使用区域最大值作为标记.

minMaxLoc()会给我价值,但我怎么能把它限制在我感兴趣的blob?我可以利用findContours()cvBlob blob 的结果来限制ROI并对每个blob应用最大值吗?

输入图像

opencv image-processing computer-vision image-segmentation watershed

67
推荐指数
3
解决办法
6万
查看次数

在OpenCV中将RGB转换为黑白

我想知道如何将RGB图像转换为黑白(二进制)图像.

转换后,如何将修改后的图像保存到磁盘?

c c++ opencv image-processing computer-vision

64
推荐指数
1
解决办法
16万
查看次数

图像处理:什么是遮挡?

我正在开发一个图像处理项目,我在许多科学论文中遇到了遮挡这个词,遮挡在图像处理的背景下意味着什么?字典只给出了一般定义.任何人都可以使用图像作为上下文来描述它们吗?

imaging image-processing object-detection computer-vision

64
推荐指数
4
解决办法
6万
查看次数