使用tesseract 2.04和Java获取文本位置

Question

我在一些图像中使用Tesseract 2.04执行OCR,现在我要获得文本的精确位置ocearized.但是这个版本不会返回此信息.

我需要这个来生成可搜索的pdf文件.我已经学会了如何在pdf的下层标记文本,但我需要在该文本上标记该位置.我的第一个想法是在pdf中执行ocr,获取文本的文本和位置,用iText api标记pdf.

Answer 1

在iText的内部,我们也研究了OCR.并且它是可能的(使用Tesseract).

工作流程:

您可以进行更多优化.一小段建议:

这不是一件容易的事.但肯定有可能.