使用leptonica进行OCR的图像处理(反色文本)

jas*_*unk 12 ocr tesseract image-processing

我试图用leptonica处理以下图像,用tesseract提取文本.

原始图片: 原始图像

Tesseract在原始图像上得出:

i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-
Run Code Online (Sandbox Code Playgroud)

不是很好,特别是顶级背景.所以使用leptionica我使用背景去除算法(模糊,差异,阈值,反转)来获得以下图像: 处理过的图像

但是tesseract并没有做得很好:

@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I
Run Code Online (Sandbox Code Playgroud)

看来,主要的问题是,现在所有的文本都是概述而不是实体.如何调整我的算法或我可以添加什么使文本变为实体?

sas*_*nin 10

本文似乎提出了一种解决您问题的二值化方法:

T Kasar,J Kumar和AG Ramakrishnan.字体和背景颜色独立文本二值化.(2007年)

Kasar etal方法的表现

  • 我使用python和opencv实现了一个实现.谢谢!https://github.com/jasonlfunk/ocr-text-extraction (8认同)