我有一个脚本迭代不同形式的图像.在解析Google Vision文本检测响应时,我使用每个文本项的'boundingPoly'中的XY坐标来专门查找表单不同部分中的数据.
我遇到的问题是一些响应只返回X坐标.例:
{u'description': u'sometext', u'boundingPoly': {u'vertices': [{u'x': 5595}, {u'x': 5717}, {u'y': 122, u'x': 5717}, {u'y': 122, u'x': 5595}
Run Code Online (Sandbox Code Playgroud)
我设置了一个try/except(使用python 2.7)来捕捉这个问题,但它总是同样的问题:KeyError: 'y'.我正在迭代数以千计的形式; 到目前为止,已经发生了1000行中的10行.
以前有人有这个问题吗?除了尝试重新提交请求(如果它达到此错误)之外是否还有其他修复?
我正在尝试从表单(表单的扫描图像)中提取信息,并将该信息放入表格中。我已经使用pytesseract对图像进行OCR并获得了成功,但是输出的问题是Tesseract尝试逐行提取文本。
表格(A,B,C)的每个窗口在表中应该是不同的行。我正在尝试使用Open Computer Vision(在python中)标识单个窗口,以1)标识单个数据单元(A,B,C),2)裁剪每个单个窗口,以及3)使用Tesseract对OCR单个窗口的图像,用于将信息放置在SQL表中所需的位置。
我的问题:如何识别每个表格输入窗口的边界,并仅将图像裁剪到该边界的范围(然后应用OCR)?另外,是否可以使用角点检测来识别数据的各个单位?
我主要在OpenCV中使用python,并且对将C#/ ++ OpenCV解决方案应用于python脚本的文档非常熟悉,因此,我希望您能提供任何信息/替代解决方案。