标签: image-recognition

Python OCR库或手写字符识别引擎

你能推荐一些用于OCR和手写字符识别的python库或源代码吗？

python ocr image-recognition

jac*_*ack

lucky-day

13
推荐指数

1
解决办法

2万
查看次数

骰子面值识别

我正在尝试构建一个能够识别两个6面骰子值的简单应用程序.我正在寻找一些通用指针,甚至可能是一个开源项目.

两个骰子将分别为黑色和白色,分别为白色和黑色.它们与相机的距离将始终相同,但它们在比赛场地上的位置和方向将是随机的.

骰子http://www.freeimagehosting.net/uploads/9160bdd073.jpg
(不是最好的例子,表面将是一个更鲜明的颜色,阴影将消失)

我没有开发这种识别软件的经验,但我认为诀窍是首先通过搜索具有主导白色或黑色的方形轮廓来隔离脸部(图像的其余部分,即桌子/游戏)表面,将以明显不同的颜色),然后隔离点数计数.自顶向下照明将消除阴影.

我希望所描述的场景如此简单(阅读:常见)它甚至可以用作开发OCR技术或类似计算机视觉挑战的开发人员的"介绍性练习".

更新:

我做了一些进一步的谷歌搜索,并发现了这个视频,奇怪的是,这正是我正在寻找的.看来OpenCV项目是我迄今为止最好的选择,我会尝试将其用于其他项目,OpenCVDotNet或Emgu CV.

更新:
仍在苦苦挣扎,无法让Emgu CV工作.

想法,指针,想法等仍然非常受欢迎!

.net c# opencv image-recognition emgucv

Jak*_*ade

2010 04-21

13
推荐指数

2
解决办法

2万
查看次数

在OpenCV中用于Iris检测的HoughCircles的正确用法/参数值是多少？

我一直在阅读有关这个主题的内容,但无法用"简明英语"来了解有关HoughCircles(特别是之后的CV_HOUGH_GRADIENT)用法和参数的想法.

什么是累加器阈值？100"投票"是正确的价值吗？

我可以找到并"掩盖"瞳孔,并通过Canny功能我的方式,但我正在努力超越,我的问题是HoughCircles功能.似乎没有找到虹膜圈,但我不知道为什么.

这就是我到目前为止所拥有的. 左:蒙面瞳孔右:精明的结果

这就是我正在努力的功能:

def getRadius(area):
    r = 1.0
    r = math.sqrt(area/3.14)
    return (r)

def getIris(frame):
    grayImg = cv.CreateImage(cv.GetSize(frame), 8, 1)
    cv.CvtColor(frame,grayImg,cv.CV_BGR2GRAY)
    cv.Smooth(grayImg,grayImg,cv.CV_GAUSSIAN,9,9)
    cv.Canny(grayImg, grayImg, 32, 2)
    storage = cv.CreateMat(grayImg.width, 1, cv.CV_32FC3)
    minRad = int(getRadius(pupilArea))
    circles = cv.HoughCircles(grayImg, storage, cv.CV_HOUGH_GRADIENT, 2, 10,32,200,minRad, minRad*2)
    cv.ShowImage("output", grayImg)
    while circles:
        cv.DrawContours(frame, circles, (0,0,0), (0,0,0), 2)
        # this message is never shown, therefore I'm not detecting circles
        print "circle!"
        circles = circles.h_next()
    return (frame)

Run Code Online (Sandbox Code Playgroud)

python opencv biometrics image-recognition computer-vision

ree*_*tor

2016 10-27

13
推荐指数

1
解决办法

3万
查看次数

使用KNN分类器进行数字识别前的预处理

现在我正在尝试使用OpenCV创建数字识别系统.WEB中有很多文章和例子(甚至在StackOverflow上).我决定使用KNN分类器,因为这个解决方案在WEB中最受欢迎.我找到了一个手写数字数据库,训练集为60k,错误率低于5%.

我使用本教程作为如何使用OpenCV使用此数据库的示例.我使用完全相同的技术和测试数据(t10k-images.idx3-ubyte)我有4%的错误率.但是当我尝试对自己的数字进行分类时,我会遇到更大的错误.例如:

被认定为7
和被认可为5
和被认定为1
被认可为8

等等(如果需要,我可以上传所有图像).

正如您所看到的,所有数字都具有良好的质量,并且易于识别.

所以我决定在分类之前做一些预处理.从上表MNIST数据库的网站,我发现人们使用歪斜校正,去除噪声,模糊和像素移位技术.不幸的是,几乎所有文章的链接都被打破了.所以我决定自己做这样的预处理,因为我已经知道如何做到这一点.

现在,我的算法如下:

侵蚀图像(我认为我原来的数字太
粗糙).
去除小轮廓.
阈值和模糊图像.
中心数字(而不是移位).

我认为在我的情况下不需要去偏移,因为所有数字通常都是旋转的.而且我也不知道如何找到合适的旋转角度.所以在这之后我得到了这些图像:

也是1
是3(以前不是5)
是5(不是8)
是7(利润!)

所以,这样的预处理对我有所帮助,但我需要更好的结果,因为在我看来,这些数字应该被认可而没有问题.

任何人都可以通过预处理给我任何建议吗？谢谢你的帮助.

PS我可以上传我的源代码(c ++)代码.

c++ opencv image-processing image-recognition knn

Art*_*huk

2017 05-23

13
推荐指数

1
解决办法

4338
查看次数

张量流上带回归输出的CNN图像识别

我想基于使用CNN的图像来预测估计的等待时间.所以我想这会使用CNN来输出回归类型输出,使用RMSE的损失函数,这是我现在正在使用的,但是它无法正常工作.

有人可以指出使用CNN图像识别输出类似于等待时间的标量/回归输出(而不是类输出)的示例,以便我可以使用他们的技术使其工作,因为我无法找到合适的例子.

我找到的所有CNN示例都是针对MSINT数据并区分输出类输出的猫和狗,而不是等待时间的数字/标量输出.

有人可以给我一个例子,使用CNN的张量流,给出基于图像识别的标量或回归输出.

非常感谢!我老实说超级卡住了,我没有取得任何进展,并且已经有两周多时间处理同样的问题了.

image-recognition conv-neural-network tensorflow

Ic3*_*911

lucky-day

13
推荐指数

1
解决办法

8414
查看次数

对服装照片进行分类有哪些好的功能？

我想建立一个服装分类器,拍摄一件衣服的照片,并将其分类为"牛仔裤","礼服","运动鞋"等.

一些例子:

牛仔裤训练者在此输入图像描述

这些图像来自零售商网站,因此通常从相同的角度拍摄,通常在白色或苍白的背景上 - 它们往往非常相似.

我有一组数千个我已经知道的类别的图像,我可以用来训练机器学习算法.

但是,我正在努力寻找我应该使用哪些功能的想法.到目前为止我的功能:

def get_aspect_ratio(pil_image):
    _, _, width, height = pil_image.getbbox()

    return width / height


def get_greyscale_array(pil_image):
    """Convert the image to a 13x13 square grayscale image, and return a
    list of colour values 0-255.

    I've chosen 13x13 as it's very small but still allows you to
    distinguish the gap between legs on jeans in my testing.

    """
    grayscale_image = pil_image.convert('L')
    small_image = grayscale_image.resize((13, 13), Image.ANTIALIAS)

    pixels = []
    for y in range(13):
        for x in range(13): …

Run Code Online (Sandbox Code Playgroud)

python machine-learning image-recognition computer-vision

Wil*_*hes

2013 09-21

12
推荐指数

1
解决办法

3101
查看次数

C#图像识别

我正在寻找一个C#图像识别库.

我想做什么:我想编写一个扫描图像的函数,如果另一个图像是其中的一部分则返回.或者至少在两个物体的角度不同的情况下看起来很熟悉.

链接到可能的库和短代码示例会很棒!

先感谢您!

.net c# pattern-recognition image-recognition computer-vision

Mic*_*key

2014 03-12

12
推荐指数

2
解决办法

2万
查看次数

识别视频中最好的标记是什么？

我目前正在视频轨道(来自摄像机)和音频轨道(来自微型)之间建立自动同步处理.为此,我计划建立一个小型网络应用程序,用我的智能手机显示一个拍板(例如:Iphone),并在我拍摄时发出特定的双琶.之后,我将执行一个小型OpenCV应用程序(实际上是JavaCV),它将检测智能手机显示拍板的图像.它仍将留给我只找到特定的双极同步两个轨道.

你可以在这里看到(http://vimeo.com/47002882)和这里(http://vimeo.com/46213073)我们已经构建并手动同步的视频.基于这个背景(以前的视频的距离,照明等)什么是你,最好的东西(形状,颜色或其他)几乎可以一直检测到？我应该使用什么样的转型？

你必须想象我会用我的智能手机显示拍板,相机将放在离我五七米的地方.

我建立了第一个基本拍板(http://jsbin.com/zuqumiso/45/)并使用OpenCV的视频处理:

帧 - > RGB到GRAY转换 - > GaussianBlur - > AdaptativeThreshold - > Hought Transformation(标准)来检测线.

但只有当我的智能手机距离相机30厘米时它才有效...

video opencv image-recognition

mbr*_*ton

2014 03-25

12
推荐指数

1
解决办法

683
查看次数