如何判断特定字体是否包含 PDF::API2 中的特定字符

Dob*_*Elf 5 pdf unicode perl fonts truetype

PDF::API2在 Perl 应用程序中使用将 OCR 输出嵌入到相应的图像后面,从而允许搜索生成的 PDF,因为 OCR 输出可以使用pdftotext.

目前,一旦应用程序在 OCR 输出中看到非 ASCII 字符,它就会从 PDF 核心字体切换到 TTF。然而,这确实很hacky,因为核心字体包括大多数西欧字符。TTF 仅适用于希腊语、俄语、日语等。

如何判断特定字体是否包含特定字符(包括 CMAP 表,以便提取有效 pdftotext)?

Lee*_*Gee 2

您是否尝试过特定于字形的方法?

http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS

如果做不到这一点,也许渲染字形(到一个单独的文档)并测量它?