PDF和文本图层

Joc*_*cht 10 pdf ocr scanning

根据此站点http://www.searchable-pdf.com/content.php?lang=en&c=61,可以在添加文本图层时搜索PDF.

我一直在寻找PDF的技术规范.我认为文本可以以两种方式存储到PDF中:a)作为图像层上方的文本层(如上面网页中所述)b)当您从Word文档(带文本)创建PDF时,我不会我认为Word将存储文本层中的所有文本.我认为它会将它存储在图像层中?对?

自PDF 1.4起,添加了XMP(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform).但什么是XMP?这是我上面讨论的"文本层"吗?

如果扫描仪正在对图像执行OCR,是否将文本存储在"文本层"中?还是"XMP"领域?这只能是PDF版本为1.4时?

如何检测PDF是否已有文本数据?例如:PDF A已使用OCR扫描而PDF B未扫描.我怎么知道应该将PDF B发送到单独的OCR引擎?

Fra*_*Rem 9

PDF规范没有提到"文本层".通常,只有一种方法可以"存储"文本:通过显示运算符的文本.这些操作符使用特定颜色,字体,字体大小和文本呈现模式在特定位置绘制文本.有几种文本渲染模式.为了回答您的问题,文本可以是可见的或不可见的.

执行OCR的扫描仪将光栅图像和文本呈现给PDF文档.使用不可见文本呈现模式呈现文本.结果是您可以使用鼠标选择文本(突出显示的区域将显示在图像顶部的预期位置),您可以搜索文本.搜索结果将再次显示在正确的位置.

从Word文档生成PDF时会发生什么情况取决于您用来转换的软件.据我所知,这些转换器不会生成图像,但会生成可见文本.

XMP是元数据,而不是可视数据.

最后,关于检测PDF是否有文本数据的问题,这里有一个类似的问题.


Kur*_*fle 5

我赞成弗兰克·雷姆(Frank Rem)的回答,因为它是“完整的”。

但是,让我添加一些细节:

  1. 文本的“隐身性”来自于PDF中Tr文本呈现模式3操作符:“既不填充也不描边文本” (PDF-1.7规范,第9.3.6章)
  2. 看看这个超级用户的问题:“在通过Ghostscript运行后,PDF的所有单词中都有一个空白”,以及我在那的答案,以了解有关技术细节的更多信息(尤其是标题为“如何我们使不可见的文本可见?”)。