我如何制作OCR计划？

Question

我想制作一个程序,将图像作为输入并输出文本.现在我知道我可以使用神经网络将单个字符的图像转换为该字符.困难的部分是:给定一个带有文本的图像,我如何生成每个角色周围的所有矩形？

那么有什么样的方法用于此,有没有人知道任何讨论如何做的研究论文？谢谢

Answer 1

基本方法是制作黑色像素的直方图.第一:投射一条线上的所有像素.直方图中的深谷表示线之间的分离(如果纸张可能倾斜,请尝试不同的角度).然后,每行(或每页,如果您知道字体是等宽的)投影水平直方图上的像素.这将为您提供字符间空格的强烈指示.至少这为您提供了平均字符高度和宽度的值,可帮助您完成后续步骤.

之后,您需要处理字距调整(字符重叠).找到连接的像素,可能首先对图像进行扩张或侵蚀,以补偿扫描伪影.

根据扫描图像的质量,您可能必须使用更高级的技术,但这将使您前进.