改进Tesseract OCR中的预处理步骤以实现实时捕获

bal*_*nna 7 ocr tesseract ios

我正在使用Tesseract库阅读身份证信息.我尝试使用一些谷歌图像并取得了不错的效果,但当我去实时图像时,就是从iPhone相机拍摄图像时,我没有取得好成绩.

我找到了Tesseract建议的一些预处理步骤.

1.修复DPI(如果需要)300 DPI是最小的.

如何实时从iPhone摄像头捕获图像时如何设置图像的DPI?

2.修复文字大小(例如12磅应该没问题).

如何修复iPhone相机创建的大图像的文本大小?

3.尝试修复文本行(偏移校正和去扭曲文本).

我读到Tesseract使用Leptonica库应用了dewarp文本.在这个预处理阶段,文本需要消解或去偏移.

4.尝试修复图像的照明(例如,没有图像的暗部).

我可以使用OpenCV执行图像照明吗?

5.二值化和去噪图像.

当我为实时图像应用阈值或自适应阈值时,我得到了差的二值化图像.

如何将这些实时图像二值化?

小智 1

    1. 2.:当文本的磅值为 12 时,意味着它在 72 DPI 下占据 12 像素的高度。在 300 DPI 下,这大约是 50 像素。因此,从 1. 和 2. 中可以看出,您应该尝试调整捕获图像的分辨率,使文本行的高度约为 50 像素。您将如何执行此操作取决于您捕获图像的方式。
    1. 要求用户伸直相机会更容易:-)
    1. 5..您可以尝试应用一些过滤。同样,询问用户以确保应用适当的照明可能会更容易。