小编crl*_*rld的帖子

Google Vision OCR的坐标值不完整

我有一个脚本迭代不同形式的图像.在解析Google Vision文本检测响应时,我使用每个文本项的'boundingPoly'中的XY坐标来专门查找表单不同部分中的数据.

我遇到的问题是一些响应只返回X坐标.例:

{u'description': u'sometext', u'boundingPoly': {u'vertices': [{u'x': 5595}, {u'x': 5717}, {u'y': 122, u'x': 5717}, {u'y': 122, u'x': 5595}
Run Code Online (Sandbox Code Playgroud)

我设置了一个try/except(使用python 2.7)来捕捉这个问题,但它总是同样的问题:KeyError: 'y'.我正在迭代数以千计的形式; 到目前为止,已经发生了1000行中的10行.

以前有人有这个问题吗?除了尝试重新提交请求(如果它达到此错误)之外是否还有其他修复?

python ocr google-cloud-vision

7
推荐指数
1
解决办法
976
查看次数

使用openCV和OCR从不规则形式提取数据

我正在尝试从表单(表单的扫描图像)中提取信息,并将该信息放入表格中。我已经使用pytesseract对图像进行OCR并获得了成功,但是输出的问题是Tesseract尝试逐行提取文本。

我扫描的表格如下所示: 在此处输入图片说明

表格(A,B,C)的每个窗口在表中应该是不同的行。我正在尝试使用Open Computer Vision(在python中)标识单个窗口,以1)标识单个数据单元(A,B,C),2)裁剪每个单个窗口,以及3)使用Tesseract对OCR单个窗口的图像,用于将信息放置在SQL表中所需的位置。

我的问题:如何识别每个表格输入窗口的边界,并仅将图像裁剪到该边界的范围(然后应用OCR)?另外,是否可以使用角点检测来识别数据的各个单位?

我主要在OpenCV中使用python,并且对将C#/ ++ OpenCV解决方案应用于python脚本的文档非常熟悉,因此,我希望您能提供任何信息/替代解决方案。

c# c++ python opencv

5
推荐指数
1
解决办法
1893
查看次数

标签 统计

python ×2

c# ×1

c++ ×1

google-cloud-vision ×1

ocr ×1

opencv ×1