tesseract：是否可以更改 OCRed pdf 中的字体输出？

Question

然而，在 Evince 中，没有显示这些字母。我的意思是我看不到字符，但我可以选择它们，复制它们并将它们成功粘贴到其他地方。这似乎不是 Evince 的 bug：https ://bugzilla.redhat.com/show_bug.cgi ? id = 1364201

使用 pdfsandwich 启动 pdf 页面的 OCR 时，tesseract 会生成一个页面

包含一种没有任何可用字形的字体（他们将其命名为 GlyphLessFont）。它只有 .notdef 和 .null 替换（正方形）。如果字符没有字形，Evince 将使用 .notdef 字形。Okular 突出显示文本的原因是因为它在图像中这样做，而不是像 evince 那样作为常规文本。

pdftotext 识别字符。

现在，问题是：可以告诉 tesseract 使用不同的字体吗？

Answer 1

您可以根据自己的喜好自定义这部分源代码并在此处更改字体。进行更改后，您将必须从源代码重建 tesseract。