小编TLE*_*TLE的帖子

我正在开发一个项目,我必须开发OCR算法(我必须从Image中读取文本,然后将其转换为不同的语言).所以我的第一个任务是从图像中获取文本.

完成第一项任务的步骤.

结果

输入图像

输出图像

检测分辨率和反转等图像特征.这样我们最终可以将其转换为拉直图像以进行进一步处理.(完成了Image的旋转代码但是无法检测到我们必须旋转Image的Image角度,所以仍然在角度检测部分工作)
线路检测和删除.此步骤需要改进页面布局分析,以获得更好的下划线文本识别质量,检测表格等.(决定完成该部分的结束)
页面布局分析.在此步骤中,我尝试识别图像中存在的文本区域.因此,只有那部分用于识别,并且省略了该区域的其余部分.
检测文本行和单词.在这里,我们还需要处理不同的字体大小和单词之间的小空格.
识别人物.这是OCR的主要算法; 必须将每个字符的图像转换为适当的字符代码.有时,该算法会为不确定图像生成多个字符代码.例如,识别"I"字符的图像可以产生"I","|" 稍后将选择"1","l"代码和最终字符代码.
将结果保存为选定的输出格式,例如,可搜索的PDF,DOC,RTF,TXT.保存原始页面布局非常重要:列,字体,颜色,图片,背景等.

所以我在part6中需要帮助.我已经完成了行检测部分(从包含n行的段落中获取n个图像)但是在下一部分中卡住了单词和字符识别.如果您知道与OCR和字符识别部分相关的良好链接,那么请发布这里.

35
推荐指数

2
解决办法

6万
查看次数

ocr ×1

小编TLE_TLE的帖子