如何判断特定字体是否包含 PDF::API2 中的特定字符

Question

我PDF::API2在 Perl 应用程序中使用将 OCR 输出嵌入到相应的图像后面，从而允许搜索生成的 PDF，因为 OCR 输出可以使用pdftotext.

目前，一旦应用程序在 OCR 输出中看到非 ASCII 字符，它就会从 PDF 核心字体切换到 TTF。然而，这确实很hacky，因为核心字体包括大多数西欧字符。TTF 仅适用于希腊语、俄语、日语等。

如何判断特定字体是否包含特定字符（包括 CMAP 表，以便提取有效 pdftotext）？

Answer 1

您是否尝试过特定于字形的方法？

如果做不到这一点，也许渲染字形（到一个单独的文档）并测量它？