相关疑难解决方法(0)

删除水平下划线

我试图从包含死刑记录信息的几百个JPG中提取文字; JPG由德克萨斯州刑事司法部(TDCJ)主持.以下是删除了个人身份信息的示例代码段.

我已经确定下划线是对正确OCR的阻碍 -如果我进去,截取子片段和手动白化线,通过pytesseract产生的OCR 非常好.但由于强调存在,它非常糟糕.

我怎样才能最好地删除这些水平线？我尝试过的:

开始使用OpenCV doc的演练:使用形态学操作提取水平和垂直线.卡住得很快,因为我知道零C++.
随后删除图像中的水平线 - 最后是一个难以理解的字符串.
接下来使用OpenCV从边缘图像中删除长水平/垂直线 - 在这里无法获得调整零数组的直觉.

用c ++标记这个问题,希望有人可以帮助将文档演练的第5步翻译成Python.我已经尝试了一批转换,例如Hugh Line Transform,但是我在图书馆和区域内的黑暗中感觉到我以前没有任何经验.

import cv2

# Inverted grayscale
img = cv2.imread('rsnippet.jpg', cv2.IMREAD_GRAYSCALE)
img = cv2.bitwise_not(img)

# Transform inverted grayscale to binary
th = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C,
                            cv2.THRESH_BINARY, 15, -2)

# An alternative; Not sure if `th` or `th2` is optimal here
th2 = cv2.threshold(img, 170, 255, cv2.THRESH_BINARY)[1]

# Create corresponding structure element for horizontal …

Run Code Online (Sandbox Code Playgroud)

c++ python opencv tesseract cv2

Bra*_*mon

2018 01-22

22
推荐指数

2
解决办法

3246
查看次数