分割多列图像以进行 OCR

Question

分割多列图像以进行 OCR

fis*_*ill 2 python opencv image-processing python-tesseract

我正在尝试从这样的几页中裁剪两列，以便以后进行 OCR，查看沿垂直线分割页面

到目前为止我所得到的是找到标题，以便可以将其裁剪掉：

image = cv2.imread('014-page1.jpg')
im_h, im_w, im_d = image.shape
base_image = image.copy()

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (7,7), 0)
thresh = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]

# Create rectangular structuring element and dilate
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (50,10))
dilate = cv2.dilate(thresh, kernel, iterations=1)

# Find contours and draw rectangle
cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
cnts = sorted(cnts, key=lambda x: cv2.boundingRect(x)[1])
for c in cnts:
    x,y,w,h = cv2.boundingRect(c)
    if h < 20 and w > 250:
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)

Run Code Online (Sandbox Code Playgroud)

如何垂直分割页面，并从列中按顺序抓取文本？或者，有更好的方法来解决这个问题吗？

Answer 1

sta*_*ine 5

这是我对这个问题的看法。它涉及选择图像的中间部分，假设垂直线存在于整个图像中（或至少穿过页面的中间）。我处理这个感兴趣区域 (ROI)，然后reduce将其排成一行。然后，我得到作物的起始和结束水平坐标。然后利用这些信息产生最终的裁剪图像。

我试图使算法变得通用。如果原始图像中有两列以上，它可以拆分所有列。我们来看看代码：

# Imports:
import numpy as np
import cv2

# Image path
path = "D://opencvImages//"
fileName = "pmALU.jpg"

# Reading an image in default mode:
inputImage = cv2.imread(path + fileName)

# To grayscale:
grayImage = cv2.cvtColor(inputImage, cv2.COLOR_BGR2GRAY)

# Otsu Threshold:
_, binaryImage = cv2.threshold(grayImage, 0, 255, cv2.THRESH_OTSU)

# Get image dimensions:
(imageHeight, imageWidth) = binaryImage.shape[:2]

# Set middle ROI dimensions:
middleVertical = 0.5 * imageHeight
roiWidth = imageWidth
roiHeight = int(0.1 * imageHeight)
middleRoiVertical = 0.5 * roiHeight
roiY = int(0.5 * imageHeight - middleRoiVertical)

Run Code Online (Sandbox Code Playgroud)

代码的第一部分获取ROI。我将其设置为在图像中间裁剪。让我们可视化将用于处理的ROI ：

下一步是裁剪它：

# Slice the ROI:
middleRoi = binaryImage[roiY:roiY + roiHeight, 0:imageWidth]
showImage("middleRoi", middleRoi)
writeImage(path+"middleRoi", middleRoi)

Run Code Online (Sandbox Code Playgroud)

这会产生以下作物：

好吧。这个想法是将这张图像缩小为一行。如果我获得所有列的最大值并将它们存储在一行中，我应该在垂直线穿过的地方得到一个大的白色部分。

现在，这里有一个问题。如果我直接缩小该图像，结果将是这样（以下是缩小后的行的图像）：

图像有点小，但您可以看到该行在两侧产生两个黑色列，后面是两个白色斑点。这是因为图像已被扫描，另外文本似乎是合理的，并且在两侧产生了一些边距。我只需要中央的白色斑点，其他所有东西都是黑色的。

我可以通过两个步骤解决这个问题：在缩小图像之前在图像周围绘制一个白色矩形 - 这将处理黑色列。之后，我可以Flood-filling在缩小图像的两侧再次涂上黑色：

# White rectangle around ROI:
rectangleThickness = int(0.01 * imageHeight)
cv2.rectangle(middleRoi, (0, 0), (roiWidth, roiHeight), 255, rectangleThickness)

# Image reduction to a row:
reducedImage = cv2.reduce(middleRoi, 0, cv2.REDUCE_MIN)

# Flood fill at the extreme corners:
fillPositions = [0, imageWidth - 1]

for i in range(len(fillPositions)):
    # Get flood-fill coordinate:
    x = fillPositions[i]
    currentCorner = (x, 0)
    fillColor = 0
    cv2.floodFill(reducedImage, None, currentCorner, fillColor)

Run Code Online (Sandbox Code Playgroud)

现在，缩小后的图像如下所示：

好的。但还有另一个问题。中央黑线在行的中心产生了一个“间隙”。真的不是问题，因为我可以用以下内容来填补这个空白opening：

# Apply Opening:
kernel = np.ones((3, 3), np.uint8)
reducedImage = cv2.morphologyEx(reducedImage, cv2.MORPH_CLOSE, kernel, iterations=2)

Run Code Online (Sandbox Code Playgroud)

这就是结果。不再有中心间隙：

凉爽的。让我们获取从黑色到白色的过渡发生的垂直位置（索引），反之亦然，从开始0：

# Get horizontal transitions:
whiteSpaces = np.where(np.diff(reducedImage, prepend=np.nan))[1]

Run Code Online (Sandbox Code Playgroud)

我现在知道在哪里裁剪了。让我们来看看：

# Crop the image:
colWidth = len(whiteSpaces)
spaceMargin = 0

for x in range(0, colWidth, 2):

    # Get horizontal cropping coordinates:
    if x != colWidth - 1:
        x2 = whiteSpaces[x + 1]
        spaceMargin = (whiteSpaces[x + 2] - whiteSpaces[x + 1]) // 2
    else:
        x2 = imageWidth

    # Set horizontal cropping coordinates:
    x1 = whiteSpaces[x] - spaceMargin
    x2 = x2 + spaceMargin

    # Clamp and Crop original input:
    x1 = clamp(x1, 0, imageWidth)
    x2 = clamp(x2, 0, imageWidth)

    currentCrop = inputImage[0:imageHeight, x1:x2]
    cv2.imshow("currentCrop", currentCrop)
    cv2.waitKey(0)

Run Code Online (Sandbox Code Playgroud)

你会注意到我计算了 a margin。这是为了裁剪列的边距。我还使用一个clamp函数来确保水平裁剪点始终在图像尺寸内。这是该函数的定义：

# Clamps an integer to a valid range:
def clamp(val, minval, maxval):
    if val < minval: return minval
    if val > maxval: return maxval
    return val

Run Code Online (Sandbox Code Playgroud)

这些是结果（根据帖子调整大小，在新选项卡中打开它们以查看完整图像）：

让我们看看如何扩展到两列以上。这是对原始输入的修改，手动添加了更多列，只是为了检查结果：

这是生成的四张图像：

归档时间：	3 年，6 月前
查看次数：	1005 次
最近记录：	3 年，3 月前