camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而,由于扫描图像会有轻微的旋转角度,因此很难继续该方法。
我们如何利用OpenCV为包含表格数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何使扫描图像的旋转角度无效?
python ocr image-processing data-extraction document-layout-analysis
我正在尝试使用计算机视觉从 pdf/图像发票中提取数据。为此,我使用了基于 ocr 的 pytesseract。\n这是示例发票\n
\n您可以在下面找到相同的代码
import pytesseract\n\n\nimg = Image.open("invoice-sample.jpg")\n\ntext = pytesseract.image_to_string(img)\n\nprint(text)\nRun Code Online (Sandbox Code Playgroud)\n通过使用 pytesseract 我得到以下输出
\nhttp://mrsinvoice.com\n\n \n\n\xe2\x80\x99 Invoice\n\nYour Company LLC Address 123, State, My Country P 111-222-333, F 111-222-334\n\n\nBILLTO:\n\nfofin Oe Invoice # 00001\n\nAlpha Bravo Road 33 Invoice Date 32/12/2001\n\nP: 111-292-333, F: 111-222-334\n\nclient@example.net Nomecof Reps Bob\nContact Phone 101-102-103\n\nSHIPPING TO:\n\neine ce Payment Terms ash on Delivery\n\nOffice Road 38\nP: 111-333-222, F: 122-222-334 Amount Due: $4,170\noffice@example.net\n\nNO PRODUCTS / SERVICE QUANTITY / RATE / UNIT AMOUNT\nHOURS: PRICE\n\n1 tye 2 $20 $40\n\n2__| Steering …Run Code Online (Sandbox Code Playgroud) python ocr tesseract python-imaging-library document-layout-analysis