隐藏的文本如何存储在OCR增强的PDF文件中

Seb*_*ten 3 pdf ocr

//编辑26.03.2018-谁想继续我的工作可以看一下我的源文件https://github.com/n0l0cale/ocr-sampledata

我实际上正在寻找有关PDF文件的一些详细信息。对我来说最重要的是,这些文件将可以使用很长时间,并且如果可能的话,OCR应该自动应用于新文件(Adobe Acrobat似乎不太可能...)。

为此,我一直在寻找不同的解决方案,如何对我的PDF文件进行OCR。我发现三个候选人似乎正在做他们应该做的事(或多或少)。但是,这三个变体都有其优点和缺点...但是对于所有三个变体,似乎都有不同的方法将数据存储在PDF文件中。...让我解释一下:

但是在所有三种情况下,我都可以在文件中搜索单词,并使用“删除隐藏的信息”并选择“隐藏的文本”来查看文本:

在Adobe Acrobat DC Pro中查看“删除隐藏的文本”功能

我感到非常困惑。。。有人知道这些程序是如何真正存储其隐藏文本信息的吗?

S.

PS:对于那些想知道这个不祥的预检脚本是什么的人:https : //theblog.adobe.com/hidden-gems-in-acrobat-dc-how-to-optimize-hidden-ocr-text/

mkl*_*mkl 5

有人知道这些程序是如何真正存储其隐藏文本信息的吗?

您正确地发现Abby Finereader的方法不同于Adobe Acrobat和Tesseract的方法:

  • Abby创建了一个页面内容流,其中首先在页面上正常绘制文本,然后最终被扫描的图像覆盖。
  • Acrobat和Tesseract创建内容流,在该内容流中,首先绘制图像,然后不可见地绘制文本(使用不绘制任何内容的文本呈现模式3)。

后两个结果之间的区别是所使用的字体的选择:

  • Acrobat使用常规的标准14字体,PDF查看器具有常规的14种字体,该字体程序可将其呈现为普通字形。
  • Tesseract使用字体GlyphLessFont,它将字体程序嵌入到结果文件中。渲染后,此字体的字形不会显示为正常的拉丁字形,而只会显示为空白。

考虑到您观察到的Abby结果的视觉效果,Acrobat或Tesseract所采用的方法可能更可取。

人们是喜欢带有视觉上可识别的字形的字体(如Acrobat所用)还是不喜欢(如Tesseract所用)的字体,在很大程度上只是味觉问题。无论如何,它们仅在不可见的渲染模式下使用。