Dob*_*Elf 5 pdf unicode perl fonts truetype
我PDF::API2在 Perl 应用程序中使用将 OCR 输出嵌入到相应的图像后面,从而允许搜索生成的 PDF,因为 OCR 输出可以使用pdftotext.
目前,一旦应用程序在 OCR 输出中看到非 ASCII 字符,它就会从 PDF 核心字体切换到 TTF。然而,这确实很hacky,因为核心字体包括大多数西欧字符。TTF 仅适用于希腊语、俄语、日语等。
如何判断特定字体是否包含特定字符(包括 CMAP 表,以便提取有效
pdftotext)?
您是否尝试过特定于字形的方法?
http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS
如果做不到这一点,也许渲染字形(到一个单独的文档)并测量它?