使用tesseract 2.04和Java获取文本位置

Rad*_*tos 3 java pdf ocr tesseract itext

我在一些图像中使用Tesseract 2.04执行OCR,现在我要获得文本的精确位置ocearized.但是这个版本不会返回此信息.

我需要这个来生成可搜索的pdf文件.我已经学会了如何在pdf的下层标记文本,但我需要在该文本上标记该位置.我的第一个想法是在pdf中执行ocr,获取文本的文本和位置,用iText api标记pdf.

Jor*_*ens 6

在iText的内部,我们也研究了OCR.并且它是可能的(使用Tesseract).

工作流程:

  1. 使用iText从pdf中提取所有图像
  2. 使用Tesseract提取文本(和坐标,字体等)
  3. 应用坐标变换(因为tesseract坐标系和iText坐标系不一样)
  4. 在pdf中添加一个图层(canvas.beginLayer)
  5. 在正确的位置绘制此图层中的所有文本

您可以进行更多优化.一小段建议:

  • 正确的基线
  • 正确的字体
  • 正确的拼写错误
  • 估计颜色
  • 估计背景颜色

这不是一件容易的事.但肯定有可能.