无法从 PDF 文档中复制非拉丁字符

UpT*_*eek 9 pdf unicode character-encoding

我有一个 pdf 文件,其中包含一些非拉丁欧洲字符。如果我使用突出显示工具复制一些文本,并将其粘贴到另一个程序(单词、记事本)中 - “特殊”字符不能正确传输(我在它们的位置上得到了其他奇怪的字符)。

我曾尝试从 Acrobat Reader 和 Foxit 中复制文本。

有什么我可以在这里复制的吗?

谢谢

小智 5

包含 Unicode 文本的普通 PDF 文档不会将文本存储为字符 - 而是作为对所用字体中字形(字母形状)的引用。当在 PDF 文档中嵌入字体时,Acrobat 也经常将 Unicode 字体转换为几种较小的字体 - 因此,即使您只使用一种字体,这些引用也可能指向几种较小字体中的字形,而不是原始字体中的字形。

将 Unicode 文本从 Acrobat 剪切并粘贴到另一个应用程序时,Acrobat 需要足够的信息来从字母形状重建 Unicode 字符。如果使用的字体具有根据Adobe 字形命名约定命名字形,则 Acrobat 可以解析这些名称(也存储在 PDF 文档中)并重建 Unicode 文本。不幸的是,有许多 Unicode 字体,包括标准的 Windows 字体,它们不遵循此约定 - 所以这可能是不可能的。

标记的 PDF文件还确保将文本可靠地翻译成 Unicode - 因此您应该能够从标记的 PDF文件中剪切和粘贴 Unicode 文本。

因此,如果您想在将来防止出现此问题,当从包含非拉丁 Unicode 文本的文档中创建 PDF 时,始终将 PDF 文件生成为带标签的 PDF,并尝试仅使用根据Adobe 字形命名约定。这样做将确保您的 Unicode PDF 文档可搜索,并且 texr 可以可靠地从中剪切和粘贴文本。


Emi*_*mil 0

最可能的答案是 PDF 文档中的文本不包含正确的字符。您看到的不一定是通过 PDF 获得的,您复制的文本和您看到的图像是两个不同的东西,并且在许多情况下,文本只是图像的 OCR 读取,这可能不是识别非拉丁字符。