使用tesseract从图像中提取文本

bir*_*rdy 5 opencv tesseract imagemagick image-processing

我正在使用tesseract从图像中提取文本.但是,我遇到了一些问题:

从下图中可以很好地提取文本:

在此输入图像描述

但是,文本不是从下面的图像中提取的,请注意文本周围的正方形现在较小

在此输入图像描述

问题

我可以对原始图像做些什么来更好地从第二张图像中提取文本.我已经在制作图像BW usint imagemagick的-monochrome滤镜了.

在图像中,我不关心文本.有没有一种技术可以用来裁剪图像并创建一个只有白色背景和文字的新图像?我不会总是知道方形圆的坐标,所以我需要一个能够自动检测白色背景坐标的裁剪功能.