小编use*_*ser的帖子

处理表的图像以从中获取数据

我有一张桌子的图像(如下所示).我正在尝试从表中获取数据,类似于此表单(表格图像的第一行):

rows[0] = [x,x, , , , ,x, ,x,x, ,x, ,x, , , , ,x, , , ,x,x,x, ,x, ,x, , , , ]

Run Code Online (Sandbox Code Playgroud)

我需要x的数量以及空格的数量.还会有其他表格图像与此图像相似(都具有x和相同的列数).

在此输入图像描述

到目前为止,我能够使用x的图像检测所有x.而且我可以在一定程度上检测到线条我正在使用open cv2 for python.我也使用houghTransform来检测水平和垂直线(效果非常好).

我试图找出如何逐行进行并将信息存储在列表中.

这些是训练图像:用于检测x(代码中的train1.png) 在此输入图像描述

用于检测行(代码中的train2.png) 在此输入图像描述

用于检测行(代码中的train3.png) 在此输入图像描述

这是我到目前为止的代码:

# process images
from pytesser import *
from PIL import Image
from matplotlib import pyplot as plt
import pytesseract
import numpy as np
import cv2
import math
import os

# the table images
images = ['table1.png', 'table2.png', 'table3.png', 'table4.png', 'table5.png']

# the template images used …

Run Code Online (Sandbox Code Playgroud)

python ocr opencv image template-matching

use*_*ser

2015 01-16

16
推荐指数

1
解决办法

1万
查看次数

从pdf提取表格

我正在尝试从本PDF表格中获取数据。我已经尝试了pdfminer和pypdf，但还是有些运气，但是我不能真正从表中获取数据。

这是其中一张表的样子：在此处输入图片说明

如您所见，有些列标有“ x”。我正在尝试将此表放入对象列表。

到目前为止，这是代码，我现在正在使用pdfminer。

# pdfminer test
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice, TagExtractor
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter, PDFPageAggregator
from pdfminer.cmapdb import CMapDB
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTFigure, LTImage
from pdfminer.image import ImageWriter
from cStringIO import StringIO
import sys
import os


def pdfToText(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = …

Run Code Online (Sandbox Code Playgroud)

python ocr python-2.7 pdfminer

use*_*ser

2015 01-14

5
推荐指数

1
解决办法

1万
查看次数