如何找出无法在 PDF 中搜索文本的原因(并使其可搜索)

Rab*_*ski 6 search pdf

我有一篇 PDF 文章(不是我创建的)。但是,我无法在 PDF 中搜索文本。我尝试过的所有 PDF 查看器对于其中明显存在的单词都返回零结果。我尝试过使用 Adob​​e Acrobat Professional 8、SumatraPDF 和 Google Chrome。

如何找出无法搜索文档的原因

我检查过的东西:

  • PDFproducer 报告为“pdftopdf”,而 PDf 版本报告为 1.3。然而,它似乎是用 MSWord 或 OpenOffice(但不是 *TEX)之类的东西创建的。
  • 它绝对不是扫描的文档,因为字体在所有缩放级别都清晰清晰,并且文本是可选的。
  • 如果我查看安全设置(ctrl-D在 Adob​​e Acrobat 中),则允许进行所有操作(例如打印、复印等)。
  • 我的搜索选项没有打开“匹配大小写”
  • 我无法使用 Acrobat 的“使用 OCR 识别文本”将其转换为可搜索文档,因为它报告:“此页面包含可呈现的文本”。

那么,DPF 不可搜索的其他原因可能是什么?以及如何使其可文本搜索?

Red*_*ick 7

  • 它可能具有自定义字体编码,以与已建立的编码(例如 ASCII 或 UTF-8/Unicode)不兼容的方式为字符分配代码点。

  • 它可能会不按顺序单独呈现字符

  • 它可能已将字符扁平化为路径

请参阅堆栈溢出问题如何调试 PDF 文件?以及现在删除的PDF 字体编码——为什么我不能从 PDF 复制文本?

要使其可进行文本搜索,最好的方法可能是返回原始来源(例如 Word 文档)并使用不同的过程来生成 PDF。或者,您可以尝试将当前的 PDF 渲染为位图,然后使用 OCR,但这会很乏味并且会产生较差的结果。