标签: document-layout-analysis

从文档扫描图像中没有任何网格线和边框的表格中提取数据

camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而,由于扫描图像会有轻微的旋转角度,因此很难继续该方法。

我们如何利用OpenCV为包含表格数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何使扫描图像的旋转角度无效?

python ocr image-processing data-extraction document-layout-analysis

7
推荐指数
1
解决办法
2112
查看次数

如何从表格格式的发票中提取数据

我正在尝试使用计算机视觉从 pdf/图像发票中提取数据。为此,我使用了基于 ocr 的 pytesseract。\n这是示例发票\n在此输入图像描述\n您可以在下面找到相同的代码

\n
import pytesseract\n\n\nimg = Image.open("invoice-sample.jpg")\n\ntext = pytesseract.image_to_string(img)\n\nprint(text)\n
Run Code Online (Sandbox Code Playgroud)\n

通过使用 pytesseract 我得到以下输出

\n
http://mrsinvoice.com\n\n \n\n\xe2\x80\x99 Invoice\n\nYour Company LLC Address 123, State, My Country P 111-222-333, F 111-222-334\n\n\nBILLTO:\n\nfofin Oe Invoice # 00001\n\nAlpha Bravo Road 33 Invoice Date 32/12/2001\n\nP: 111-292-333, F: 111-222-334\n\nclient@example.net Nomecof Reps Bob\nContact Phone 101-102-103\n\nSHIPPING TO:\n\neine ce Payment Terms ash on Delivery\n\nOffice Road 38\nP: 111-333-222, F: 122-222-334 Amount Due: $4,170\noffice@example.net\n\nNO PRODUCTS / SERVICE QUANTITY / RATE / UNIT AMOUNT\nHOURS: PRICE\n\n1 tye 2 $20 $40\n\n2__| Steering …
Run Code Online (Sandbox Code Playgroud)

python ocr tesseract python-imaging-library document-layout-analysis

5
推荐指数
1
解决办法
1万
查看次数