无法从 PDF 文档中复制非拉丁字符

Question

无法从 PDF 文档中复制非拉丁字符

UpT*_*eek 9 pdf unicode character-encoding

我有一个 pdf 文件，其中包含一些非拉丁欧洲字符。如果我使用突出显示工具复制一些文本，并将其粘贴到另一个程序（单词、记事本）中 - “特殊”字符不能正确传输（我在它们的位置上得到了其他奇怪的字符）。

我曾尝试从 Acrobat Reader 和 Foxit 中复制文本。

有什么我可以在这里复制的吗？

谢谢

Answer 1

小智 5

包含 Unicode 文本的普通 PDF 文档不会将文本存储为字符 - 而是作为对所用字体中字形（字母形状）的引用。当在 PDF 文档中嵌入字体时，Acrobat 也经常将 Unicode 字体转换为几种较小的字体 - 因此，即使您只使用一种字体，这些引用也可能指向几种较小字体中的字形，而不是原始字体中的字形。

将 Unicode 文本从 Acrobat 剪切并粘贴到另一个应用程序时，Acrobat 需要足够的信息来从字母形状重建 Unicode 字符。如果使用的字体具有根据Adobe 字形命名约定命名的字形，则 Acrobat 可以解析这些名称（也存储在 PDF 文档中）并重建 Unicode 文本。不幸的是，有许多 Unicode 字体，包括标准的 Windows 字体，它们不遵循此约定 - 所以这可能是不可能的。

标记的 PDF文件还确保将文本可靠地翻译成 Unicode - 因此您应该能够从标记的 PDF文件中剪切和粘贴 Unicode 文本。

因此，如果您想在将来防止出现此问题，当从包含非拉丁 Unicode 文本的文档中创建 PDF 时，始终将 PDF 文件生成为带标签的 PDF，并尝试仅使用根据Adobe 字形命名约定。这样做将确保您的 Unicode PDF 文档可搜索，并且 texr 可以可靠地从中剪切和粘贴文本。

Answer 2

Emi*_*mil 0

最可能的答案是 PDF 文档中的文本不包含正确的字符。您看到的不一定是通过 PDF 获得的，您复制的文本和您看到的图像是两个不同的东西，并且在许多情况下，文本只是图像的 OCR 读取，这可能不是识别非拉丁字符。

归档时间：	16 年前
查看次数：	16831 次
最近记录：	4 年，9 月前