是否可以从可搜索的PDF访问文本叠加层？

Question

我知道PDF和文本可搜索的PDF之间存在差异.文本可搜索的PDF具有用于搜索的文本覆盖.是否可以将此文本叠加层提取到txt文件中？也许使用Adobe API？

Answer 1

"可搜索的PDF"不是官方定义,但它是一种常用的表达方式.

如果标准PDF包含它使用的所有嵌入的字体,并且如果这些字体不使用自定义编码,则可能是"可搜索":这意味着您可以复制'n'粘贴文本,并且您可以提取来自它的文本(以及pdftotext工作或多或少完美无缺的工具).这与"文本覆盖"无关,它是PDF的标准体系结构.

您描述为"文本叠加"的内容是可以添加到扫描的 PDF中的内容.从扫描创建的PDF是整页图像,通常是TIFF,嵌入(否则为空)PDF页面.然后,在另外的步骤中,通过对其运行OCR(光学字符识别)来添加"文本覆盖".这为其他愚蠢的'仅像素'PDF提供了"可搜索性".

如果带有"文本覆盖"的PDF不会在其字体周围使用奇怪的结构,那么应该很容易将此文本提取到*.txt文件中.毕竟,在仅图像PDF上运行OCR旨在添加"可搜索"文本:

安装pdftotext(适用于Linux,Unix,Windows,Mac OS X),然后尝试运行:
```
pdftotext -layout some-input.pdf  some-input.txt
```
Run Code Online (Sandbox Code Playgroud)

警告,大多数OCR的工作远非完美.如果你对所有角色的识别率都是99%,那么你会很幸运.(但是,这意味着:所有的约10%的话,所有的约100%的句子包含一个错误-这会给你上高中了保证失败...)

还应该注意的是,这些"文本叠加"在技术上与PDF中的任何其他文本部分相同(除了它们包含更多的拼写和语法错误:-) - 但它们使用特殊的文本呈现模式(模式3),描述为"无论是填充还是描边文字(不可见)." 虽然它是"隐形的",但你仍然可以突出显示,复制'''或者提取这些文本部分.