Moh*_* ah 23 python opencv image image-processing
我有发票文件,我想在每张发票中找到表格.这个表位置不会是常数.所以我来图像处理.首先,我尝试将发票转换为图像.然后我发现基于表格边框的轮廓最终占据了表格位置.我使用下面的代码来完成我的任务.
with Image(page) as page_image:
page_image.alpha_channel = False #eliminates transperancy
img_buffer=np.asarray(bytearray(page_image.make_blob()), dtype=np.uint8)
img = cv2.imdecode(img_buffer, cv2.IMREAD_UNCHANGED)
ret, thresh = cv2.threshold(img, 127, 255, 0)
im2, contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
margin=[]
for contour in contours:
# get rectangle bounding contour
[x, y, w, h] = cv2.boundingRect(contour)
# Don't plot small false positives that aren't text
if (w >thresh1 and h> thresh2):
margin.append([x, y, x + w, y + h])
#data cleanup on margin to extract required position values.
Run Code Online (Sandbox Code Playgroud)
在此代码中thresh1
,thresh2
我将根据文件进行更新.
因此,使用此代码,我可以成功读取图像中表格的位置,使用此位置我将在我的发票pdf文件上工作.例如
样本1:
样本2:
输出:
样本1:
样本2:
样本3:
但是现在我有了一种新格式,它没有任何边框,但它是一张桌子.怎么解决这个?因为我的整个操作完全取决于表的边界.但是现在我没有桌边框.我怎样才能做到这一点?由于我是图像处理的初学者,我不知道从这个问题中解脱出来.我的问题是,有没有办法找到基于表结构的位置?
例如,我的问题输入如下所示:
我怎么解决这个问题?给我一个想法来解决这个问题真是太明显了.
提前致谢.
Dmy*_*tro 32
Vaibhav是对的.您可以尝试不同的形态变换,将像素提取或分组为不同的形状,线条等.例如,方法可以如下:
我写了一个小样本来说明这个想法.我希望代码是自我解释的.我也在那里发表了一些评论.
import os
import cv2
import imutils
# This only works if there's only one table on a page
# Important parameters:
# - morph_size
# - min_text_height_limit
# - max_text_height_limit
# - cell_threshold
# - min_columns
def pre_process_image(img, save_in_file, morph_size=(8, 8)):
# get rid of the color
pre = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# Otsu threshold
pre = cv2.threshold(pre, 250, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
# dilate the text to make it solid spot
cpy = pre.copy()
struct = cv2.getStructuringElement(cv2.MORPH_RECT, morph_size)
cpy = cv2.dilate(~cpy, struct, anchor=(-1, -1), iterations=1)
pre = ~cpy
if save_in_file is not None:
cv2.imwrite(save_in_file, pre)
return pre
def find_text_boxes(pre, min_text_height_limit=6, max_text_height_limit=40):
# Looking for the text spots contours
# OpenCV 3
# img, contours, hierarchy = cv2.findContours(pre, cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
# OpenCV 4
contours, hierarchy = cv2.findContours(pre, cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
# Getting the texts bounding boxes based on the text size assumptions
boxes = []
for contour in contours:
box = cv2.boundingRect(contour)
h = box[3]
if min_text_height_limit < h < max_text_height_limit:
boxes.append(box)
return boxes
def find_table_in_boxes(boxes, cell_threshold=10, min_columns=2):
rows = {}
cols = {}
# Clustering the bounding boxes by their positions
for box in boxes:
(x, y, w, h) = box
col_key = x // cell_threshold
row_key = y // cell_threshold
cols[row_key] = [box] if col_key not in cols else cols[col_key] + [box]
rows[row_key] = [box] if row_key not in rows else rows[row_key] + [box]
# Filtering out the clusters having less than 2 cols
table_cells = list(filter(lambda r: len(r) >= min_columns, rows.values()))
# Sorting the row cells by x coord
table_cells = [list(sorted(tb)) for tb in table_cells]
# Sorting rows by the y coord
table_cells = list(sorted(table_cells, key=lambda r: r[0][1]))
return table_cells
def build_lines(table_cells):
if table_cells is None or len(table_cells) <= 0:
return [], []
max_last_col_width_row = max(table_cells, key=lambda b: b[-1][2])
max_x = max_last_col_width_row[-1][0] + max_last_col_width_row[-1][2]
max_last_row_height_box = max(table_cells[-1], key=lambda b: b[3])
max_y = max_last_row_height_box[1] + max_last_row_height_box[3]
hor_lines = []
ver_lines = []
for box in table_cells:
x = box[0][0]
y = box[0][1]
hor_lines.append((x, y, max_x, y))
for box in table_cells[0]:
x = box[0]
y = box[1]
ver_lines.append((x, y, x, max_y))
(x, y, w, h) = table_cells[0][-1]
ver_lines.append((max_x, y, max_x, max_y))
(x, y, w, h) = table_cells[0][0]
hor_lines.append((x, max_y, max_x, max_y))
return hor_lines, ver_lines
if __name__ == "__main__":
in_file = os.path.join("data", "page.jpg")
pre_file = os.path.join("data", "pre.png")
out_file = os.path.join("data", "out.png")
img = cv2.imread(os.path.join(in_file))
pre_processed = pre_process_image(img, pre_file)
text_boxes = find_text_boxes(pre_processed)
cells = find_table_in_boxes(text_boxes)
hor_lines, ver_lines = build_lines(cells)
# Visualize the result
vis = img.copy()
# for box in text_boxes:
# (x, y, w, h) = box
# cv2.rectangle(vis, (x, y), (x + w - 2, y + h - 2), (0, 255, 0), 1)
for line in hor_lines:
[x1, y1, x2, y2] = line
cv2.line(vis, (x1, y1), (x2, y2), (0, 0, 255), 1)
for line in ver_lines:
[x1, y1, x2, y2] = line
cv2.line(vis, (x1, y1), (x2, y2), (0, 0, 255), 1)
cv2.imwrite(out_file, vis)
Run Code Online (Sandbox Code Playgroud)
我有以下输出:
当然,为了使算法更稳健并适用于各种不同的输入图像,必须相应地进行调整.
文档图像中的表格类型很多,变化和布局太多。不管你写了多少规则,总会出现一张你的规则会失败的表。这些类型的问题通常使用基于 ML(机器学习)的解决方案来解决。您可以在 github 上找到许多预先实现的代码,用于解决使用 ML 或 DL(深度学习)检测图像中的表的问题。
这是我的代码和深度学习模型,该模型可以检测各种类型的表格以及表格中的结构单元:https : //github.com/DevashishPrasad/CascadeTabNet
就准确性而言,该方法目前(2020 年 5 月 10 日)在各种公共数据集上达到了最先进的水平
更多详情:https : //arxiv.org/abs/2004.12629
小智 5
您可以在findContours函数之前尝试应用一些形态变换(例如膨胀,侵蚀或高斯模糊)作为预处理步骤
例如
blur = cv2.GaussianBlur(g, (3, 3), 0)
ret, thresh1 = cv2.threshold(blur, 150, 255, cv2.THRESH_BINARY)
bitwise = cv2.bitwise_not(thresh1)
erosion = cv2.erode(bitwise, np.ones((1, 1) ,np.uint8), iterations=5)
dilation = cv2.dilate(erosion, np.ones((3, 3) ,np.uint8), iterations=5)
Run Code Online (Sandbox Code Playgroud)
最后一个参数,迭代显示将发生的扩张/腐蚀程度(在您的情况下,在文本上)。较小的值将导致较小的独立轮廓,即使在字母范围内也是如此,较大的值将合并许多附近的元素。您需要找到理想的值,以便仅获取图像的该块。
请注意,我一直使用150作为阈值参数,因为我一直在尝试从背景不同的图像中提取文本,因此效果更好。由于它是黑白图像,因此您可以选择继续使用您所采用的值。
归档时间: |
|
查看次数: |
17633 次 |
最近记录: |