小编Mat*_*rin的帖子

我正在根据历史记录创建一个数据库,我从书本上拍摄了一页(+ 100K页).在OCR每个页面之前,我写了一些python代码来进行一些图像处理.由于这些书中的数据没有格式良好的表格,我需要将每个页面分成行和列,然后分别对每个页面进行OCR.

其中一个关键步骤是对齐图像中的文本.

例如,这是一个需要对齐的典型页面:

我找到的解决方案是水平涂抹文本(我正在使用skimage.ndimage.morphology.binary_dilation)并找到沿水平维度最大化白色像素总和的旋转.

这样可以正常工作,但每页大约需要8秒钟,因为我使用的页面数量太多了.

您是否知道更好,更快的方式来完成对齐文本？

我使用scikit-image进行图像处理功能,并使用scipy来最大化沿水平轴的白色像素数.

这是我用来处理这个问题的Jupyter笔记本的html视图的链接.代码使用了我为此项目编写的模块中的一些函数,因此无法单独运行.

链接到笔记本(dropbox):https://db.tt/Mls9Tk8s

这是原始图像(dropbox)的链接:https://db.tt/1t9kAt0z

8
推荐指数

1
解决办法

5368
查看次数

ocr ×1

小编Mat_rin的帖子