PDF 复制文本问题：奇怪的字符

Question

PDF 复制文本问题：奇怪的字符

我试图从 PDF 文件中复制文本，但得到了一些奇怪的字符。奇怪的是，Okular 可以识别文本，但不能使用 Sumatra PDF 或 Adobe，所有三个应用程序都安装在 Windows 10 64 位。为了更好地解释我的问题，这里是视频https://streamable.com/sw1hc。“文本层解决方法文件”是我得到的一种解决方案。任何帮助是极大的赞赏。问候

Answer 1

mkl*_*mkl 8

简而言之：（原始）PDF 不包含 PDF 规范中描述的常规文本提取所需的信息。根据您的任务的确切性质，您可能会尝试将所需信息添加到现有文本对象和字体中，或者您可能会选择 OCR。

将字符代码映射到 Unicode，如 PDF 规范中所述

PDF 规范 ISO 32000-1（以及类似的 ISO 32000-2）描述了一种使用 PDF 中直接可用的信息将字符代码映射到 Unicode 值的算法。

它在其他堆栈溢出答案中经常被引用（参见这里、这里、这里、这里、这里或这里），所以我不会在这里再次引用它。

本质上，这是 Adobe Acrobat 在复制和粘贴过程中以及许多其他文本提取器使用的算法。

在不包含文本提取所需信息的 PDF 中，您最终会在算法中达到这一点：

如果这些方法无法生成 Unicode 值，则无法确定字符代码代表什么，在这种情况下，符合要求的读者可以选择他们选择的字符代码。

如果上述算法无法生成 Unicode 值会发生什么

这是文本提取实现的不同之处，它们尝试通过使用启发式方法或来自 PDF 之外的信息或将 OCR 应用于相关字形来确定匹配的 Unicode 值。

您尝试的不同程序返回了如此不同的结果表明

您的 PDF 不包含 PDF 规范中上述算法所需的信息，并且
这些程序使用的启发式方法有所不同，而 Okular 的启发式方法最适合您的文档。

遇到这种情况怎么办

有多种选择，根据您的具体情况或多或少可行：

向 PDF 的来源询问包含用于文本提取的正确信息的版本。

除非您与该来源签订合同要求他们以机器可读的形式提供 PDF 或来源有其他义务这样做，否则他们通常会拒绝，尽管......
将 OCR 应用于相关 PDF。

根据 OCR 软件的质量和 PDF 中的字形，结果的质量可能有问题；例如，在您的“PDF copy text issue-Text layer workaround.pdf”中，标题“Chapter 1: Derivative Securities”已被识别为“Chapter1: Deratve Securites”...
您可以尝试以交互方式将手动创建的ToUnicode映射添加到 PDF，例如，如Tilman Hausherr在他对“如何在 pdfbox 2.0.0 上的 truetype0font 中添加 unicode”的回答中所述。

根据您必须为其创建映射的不同字体的数量，这种方法可能很容易需要太多的时间和精力......

归档时间：	6 年，9 月前
查看次数：	6579 次
最近记录：	6 年，9 月前