tesseract:是否可以更改 OCRed pdf 中的字体输出?

ing*_*gli 5 ocr fonts pdf evince tesseract

跟进如何对 pdf 文件进行 OCR 并获取存储在 pdf 中的文本?我已经成功制作了 OCRed pdf 页面。

然而,在 Evince 中,没有显示这些字母。我的意思是我看不到字符,但我可以选择它们,复制它们并将它们成功粘贴到其他地方。这似乎不是 Evince 的 bug:https ://bugzilla.redhat.com/show_bug.cgi ? id = 1364201

使用 pdfsandwich 启动 pdf 页面的 OCR 时,tesseract 会生成一个页面

包含一种没有任何可用字形的字体(他们将其命名为 GlyphLessFont)。它只有 .notdef 和 .null 替换(正方形)。如果字符没有字形,Evince 将使用 .notdef 字形。Okular 突出显示文本的原因是因为它在图像中这样做,而不是像 evince 那样作为常规文本。

pdftotext 识别字符。

现在,问题是:可以告诉 tesseract 使用不同的字体吗?

小智 2

您可以根据自己的喜好自定义这部分源代码并在此处更改字体。进行更改后,您将必须从源代码重建 tesseract。

Tesseract Github Renderer.h