ing*_*gli 5 ocr fonts pdf evince tesseract
跟进如何对 pdf 文件进行 OCR 并获取存储在 pdf 中的文本?我已经成功制作了 OCRed pdf 页面。
然而,在 Evince 中,没有显示这些字母。我的意思是我看不到字符,但我可以选择它们,复制它们并将它们成功粘贴到其他地方。这似乎不是 Evince 的 bug:https ://bugzilla.redhat.com/show_bug.cgi ? id = 1364201
使用 pdfsandwich 启动 pdf 页面的 OCR 时,tesseract 会生成一个页面
包含一种没有任何可用字形的字体(他们将其命名为 GlyphLessFont)。它只有 .notdef 和 .null 替换(正方形)。如果字符没有字形,Evince 将使用 .notdef 字形。Okular 突出显示文本的原因是因为它在图像中这样做,而不是像 evince 那样作为常规文本。
pdftotext 识别字符。
现在,问题是:可以告诉 tesseract 使用不同的字体吗?
归档时间: |
|
查看次数: |
1460 次 |
最近记录: |