标签: document-layout-analysis

从文档扫描图像中没有任何网格线和边框的表格中提取数据

camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是，该解决方案不适用于文档页面的扫描图像，特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而，由于扫描图像会有轻微的旋转角度，因此很难继续该方法。

我们如何利用OpenCV为包含表格数据（以及文本段落）的扫描文档页面生成网格（水平和垂直线）和边框？如果可行，如何使扫描图像的旋转角度无效？

python ocr image-processing data-extraction document-layout-analysis

arc*_*hkm

2022 09-08

7
推荐指数

1
解决办法

2112
查看次数

如何从表格格式的发票中提取数据

我正在尝试使用计算机视觉从 pdf/图像发票中提取数据。为此，我使用了基于 ocr 的 pytesseract。\n这是示例发票\n\n您可以在下面找到相同的代码

import pytesseract\n\n\nimg = Image.open("invoice-sample.jpg")\n\ntext = pytesseract.image_to_string(img)\n\nprint(text)\n

Run Code Online (Sandbox Code Playgroud)\n

通过使用 pytesseract 我得到以下输出

http://mrsinvoice.com\n\n \n\n\xe2\x80\x99 Invoice\n\nYour Company LLC Address 123, State, My Country P 111-222-333, F 111-222-334\n\n\nBILLTO:\n\nfofin Oe Invoice # 00001\n\nAlpha Bravo Road 33 Invoice Date 32/12/2001\n\nP: 111-292-333, F: 111-222-334\n\nclient@example.net Nomecof Reps Bob\nContact Phone 101-102-103\n\nSHIPPING TO:\n\neine ce Payment Terms ash on Delivery\n\nOffice Road 38\nP: 111-333-222, F: 122-222-334 Amount Due: $4,170\noffice@example.net\n\nNO PRODUCTS / SERVICE QUANTITY / RATE / UNIT AMOUNT\nHOURS: PRICE\n\n1 tye 2 $20 $40\n\n2__| Steering …

Run Code Online (Sandbox Code Playgroud)

python ocr tesseract python-imaging-library document-layout-analysis

May*_*tav

2022 09-08

5
推荐指数

1
解决办法

1万
查看次数