标签: computer-vision

如何使用ffmpeg从H264视频文件中提取高质量的JPEG图像？

目前我正在使用此命令来提取图像:

ffmpeg.exe -i 10fps.h264 -r 10 -f image2 10fps.h264_%03d.jpeg

但是如何提高JPEG图像质量呢？

graphics video ffmpeg computer-vision sharpffmpeg

Dan*_*ann

lucky-day

92
推荐指数

2
解决办法

10万
查看次数

什么是"语义分割"与"分割"和"场景标记"相比？

语义分割只是一个Pleonasm还是"语义分割"和"分割"之间存在差异？"场景标记"或"场景解析"有区别吗？

像素级和像素级分割有什么区别？

(旁边问题:当你有这种像素方式的注释时,你是否可以免费获得物体检测,还是还有什么可做的？)

请提供您的定义来源.

使用"语义分割"的来源

Jonathan Long,Evan Shelhamer,Trevor Darrell:用于语义分割的完全卷积网络.CVPR,2015年和PAMI,2016年
Hong,Seunghoon,Hyeonwoo Noh和Bohyung Han:"用于半监督语义分割的解耦深度神经网络".arXiv preprint arXiv:1506.04924,2015.
V. Lempitsky,A.Vedaldi和A. Zisserman:用于语义分割的塔架模型."神经信息处理系统进展",2011年.

使用"场景标签"的来源

Clement Farabet,Camille Couprie,Laurent Najman,Yann LeCun:学习场景标签的等级特征.在模式分析和机器智能,2013年.

使用"像素级"的来源

Pinheiro,Pedro O.和Ronan Collobert:"从卷积网络的图像级到像素级标签." 2015年计算机视觉和模式识别会议论文集.(见http://arxiv.org/abs/1411.6228)

使用"pixelwise"的来源

Li,Hongsheng,Rui Zhao和Wang Xiaogang Wang:"用于像素分类的卷积神经网络的高效前向和后向传播." arXiv preprint arXiv:1412.4526,2014.

谷歌Ngrams

"语义分割"似乎最近比"场景标记"更多地使用

image-processing object-detection computer-vision image-segmentation semantic-segmentation

Mar*_*oma

2018 07-04

92
推荐指数

3
解决办法

5万
查看次数

如何在Tesseract和OpenCV之间进行选择？

我最近遇到了Tesseract和OpenCV.看起来Tesseract是一个成熟的OCR引擎,OpenCV可以用作创建OCR应用程序/服务的框架.

我尝试在我的一些图像上使用Tesseract,它的准确性似乎不错.后来,我遇到了一个非常简单的使用OpenCV来使用Python执行OCR的教程,并给人留下了深刻的印象.几分钟后,我完成了系统的培训,其准确性很好.但是,当然,采用这种方法意味着我需要使用大型训练集来广泛训练我的系统.

我的具体问题如下:

如何在Tesseract和使用OpenCV构建自定义OCR应用程序之间进行选择？
有针对不同语言的Tesseract提供的培训数据集.OpenCV是否有类似的东西,以便我不必开始实现OCR？
对于想成为商业应用程序哪个更好？

有什么建议？

注意:我24小时在计算机视觉领域,但我愿意花时间和精力学习先决条件.

python ocr opencv tesseract computer-vision

Leg*_*end

2019 03-12

86
推荐指数

3
解决办法

6万
查看次数

物体检测和计算机视觉中的mAP度量

在计算机视觉和物体检测中,常用的评估方法是mAP.它是什么以及如何计算？

metrics machine-learning vision detection computer-vision

cer*_*rou

2017 12-19

83
推荐指数

4
解决办法

5万
查看次数

如何使用Python找到Wally？

无耻地跳上潮流:-)

灵感来自我如何找到带有Mathematica的Waldo和后续如何找到Waldo with R,作为一个新的python用户,我很想知道如何做到这一点.看起来python比R更适合这个,我们不必像Mathematica或Matlab那样担心许可证.

在下面的例子中,显然只使用条纹是行不通的.如果能够制定一个简单的基于规则的方法来处理诸如此类的困难例子,那将会很有趣.

在沙滩上

我已经添加了[机器学习]标签,因为我认为正确的答案必须使用ML技术,例如Gregory Klopper在原始主题中提倡的Restricted Boltzmann Machine(RBM)方法.python中有一些RBM代码可能是一个很好的起点,但显然需要训练数据.

在2009年IEEE国际信号处理机器学研讨会(MLSP 2009)上,他们举办了数据分析竞赛:Wally在哪里？.训练数据以matlab格式提供.请注意,该网站上的链接已经死亡,但是数据(以及Sean McLoone及其同事采用的方法的来源可以在这里找到(参见SCM链接).看起来像是一个开始的地方.

python machine-learning image-processing computer-vision

tdc*_*tdc

2017 05-23

81
推荐指数

1
解决办法

1万
查看次数

Viola-Jones的脸部检测声称拥有180k功能

我一直在实施Viola-Jones的人脸检测算法.该技术依赖于在图像内放置24×24像素的子帧,并且随后在每个位置中将矩形特征放置在每个位置中,并且每种尺寸都可能.

这些特征可以包括两个,三个或四个矩形.提供以下示例.

矩形功能

他们声称详尽的集合超过180k(第2部分):

鉴于探测器的基本分辨率为24x24,详尽的矩形特征集非常大,超过180,000.请注意,与Haar基础不同,矩形特征集是过度完整的.

本文未明确说明以下陈述,因此它们是我的假设:

只有2个双矩形特征,2个三矩形特征和1个四矩形特征.这背后的逻辑是我们正在观察突出显示的矩形之间的差异,而不是明确的颜色或亮度或那种类型的任何东西.
我们不能将特征类型A定义为1x1像素块; 它必须至少至少1x2像素.此外,类型D必须至少为2x2像素,并且此规则相应地适用于其他功能.
我们不能将特征类型A定义为1×3像素块,因为中间像素不能被分割,并且从其自身减去它与1×2像素块相同; 此要素类型仅针对偶数宽度定义.此外,要素类型C的宽度必须可以被3整除,并且此规则相应地适用于其他要素.
我们无法定义宽度和/或高度为0 的要素.因此,我们将x和y迭代为24减去要素的大小.

基于这些假设,我计算了详尽的集合:

const int frameSize = 24;
const int features = 5;
// All five feature types:
const int feature[features][2] = {{2,1}, {1,2}, {3,1}, {1,3}, {2,2}};

int count = 0;
// Each feature:
for (int i = 0; i < features; i++) {
    int sizeX = feature[i][0];
    int sizeY = feature[i][1];
    // Each position:
    for (int x = 0; x <= …

Run Code Online (Sandbox Code Playgroud)

algorithm image-processing computer-vision face-detection viola-jones

Pau*_*sma

2014 04-18

78
推荐指数

2
解决办法

2万
查看次数