隐藏的文本如何存储在OCR增强的PDF文件中

Question

//编辑26.03.2018-谁想继续我的工作可以看一下我的源文件https://github.com/n0l0cale/ocr-sampledata

我实际上正在寻找有关PDF文件的一些详细信息。对我来说最重要的是，这些文件将可以使用很长时间，并且如果可能的话，OCR应该自动应用于新文件（Adobe Acrobat似乎不太可能...）。

为此，我一直在寻找不同的解决方案，如何对我的PDF文件进行OCR。我发现三个候选人似乎正在做他们应该做的事（或多或少）。但是，这三个变体都有其优点和缺点...但是对于所有三个变体，似乎都有不同的方法将数据存储在PDF文件中。...让我解释一下：

使用Adobe Acrobat的文件OCRed：

https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ACROBAT.pdf

生成一个文件，Acrobat可以在一个步骤中打开该文件（不预加载任何背景层），并且在执行预检脚本之后，我可以看到隐藏的文本：
使用Abby Finereader的文件OCRed：

https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_ABBY.pdf

似乎不适合默认的adobe preflight-script，因为它不显示任何其他层：

但是，据我所知，这些文件似乎都有一个Background-Text-Layer，其中包含OCRed Text，这是最后显示给用户的Image的基础层。不幸的是，这似乎是单独加载的，这在使用Adobe Acrobat打开文件时令人困惑。
使用Tesseract 4（Alpha）的文件OCRed：

https://github.com/n0l0cale/ocr-sampledata/blob/master/A4%20sample_TESSERACT_oem2.pdf

在隐藏文本部分也做了一些奇怪的魔术：