改进Tesseract OCR中的预处理步骤以实现实时捕获

Question

我正在使用Tesseract库阅读身份证信息.我尝试使用一些谷歌图像并取得了不错的效果,但当我去实时图像时,就是从iPhone相机拍摄图像时,我没有取得好成绩.

我找到了Tesseract建议的一些预处理步骤.

1.修复DPI(如果需要)300 DPI是最小的.

如何实时从iPhone摄像头捕获图像时如何设置图像的DPI？

2.修复文字大小(例如12磅应该没问题).

如何修复iPhone相机创建的大图像的文本大小？

3.尝试修复文本行(偏移校正和去扭曲文本).

我读到Tesseract使用Leptonica库应用了dewarp文本.在这个预处理阶段,文本需要消解或去偏移.

4.尝试修复图像的照明(例如,没有图像的暗部).

我可以使用OpenCV执行图像照明吗？

5.二值化和去噪图像.

当我为实时图像应用阈值或自适应阈值时,我得到了差的二值化图像.

如何将这些实时图像二值化？

Answer 1

1. 2.：当文本的磅值为 12 时，意味着它在 72 DPI 下占据 12 像素的高度。在 300 DPI 下，这大约是 50 像素。因此，从 1. 和 2. 中可以看出，您应该尝试调整捕获图像的分辨率，使文本行的高度约为 50 像素。您将如何执行此操作取决于您捕获图像的方式。
1. 要求用户伸直相机会更容易:-)
1. 5..您可以尝试应用一些过滤。同样，询问用户以确保应用适当的照明可能会更容易。