从 PDF 中剪切和粘贴越南语字符

Question

我正在尝试将一堆越南语文本从 PDF 文档复制/粘贴到 Notepad++（或任何东西，没有任何效果）。粘贴的文本与源文本不同。解决此问题的最佳方法是什么？

例如：

源文本：（源文本见截图）在此处输入图片说明

粘贴文字：木瓜沙拉 ~ GÕi ñu ñû Tôm

非常感谢。

编辑：看来，如果源是 Word 文档，它会按预期复制和粘贴。PDF 是这里的问题。

Answer 1

这是因为 PDF 中使用的编码是任意的。

Acrobat 文件属性

_{从我在 intertubes 中找到的越南语 PDF}

“ Encoding:Custom ”可能是指一种（看似随机的）编码，由生成此 PDF 的程序为方便起见而组成。

“ Embedded Subset ”意味着该程序不需要这种字体中的大量字符，所以它只是挑选了它需要的几个并以看似随机的顺序排列它们（可能是程序在文本中遇到它们的顺序）和新发明的编码基于此顺序。

它不是真正的“字符”。 基本上，PDF 不再具有关于它具有的“哪个字符”的任何普遍有意义的信息。它只有一组带索引的形状以及显示这些带索引形状的位置和大小列表。

维基百科说

通过使用“身份”编码，例如 Identity-H（用于水平书写）或 Identity-V（用于垂直），可以在不参考字符集合的情况下制作 CID 键控字体。这样的字体可能每个都有一个独特的字符集，在这种情况下，字形的 CID 号不能提供信息；通常使用 Unicode 编码代替，可能带有补充信息。

因此，您可能会尝试查看 UTF-16 BE 编码是否有意义。