我正在根据历史记录创建一个数据库,我从书本上拍摄了一页(+ 100K页).在OCR每个页面之前,我写了一些python代码来进行一些图像处理.由于这些书中的数据没有格式良好的表格,我需要将每个页面分成行和列,然后分别对每个页面进行OCR.
其中一个关键步骤是对齐图像中的文本.
我找到的解决方案是水平涂抹文本(我正在使用skimage.ndimage.morphology.binary_dilation)并找到沿水平维度最大化白色像素总和的旋转.
这样可以正常工作,但每页大约需要8秒钟,因为我使用的页面数量太多了.
您是否知道更好,更快的方式来完成对齐文本?
我使用scikit-image进行图像处理功能,并使用scipy来最大化沿水平轴的白色像素数.
这是我用来处理这个问题的Jupyter笔记本的html视图的链接.代码使用了我为此项目编写的模块中的一些函数,因此无法单独运行.
链接到笔记本(dropbox):https://db.tt/Mls9Tk8s
这是原始图像(dropbox)的链接:https://db.tt/1t9kAt0z