我有一篇 PDF 文章(不是我创建的)。但是,我无法在 PDF 中搜索文本。我尝试过的所有 PDF 查看器对于其中明显存在的单词都返回零结果。我尝试过使用 Adobe Acrobat Professional 8、SumatraPDF 和 Google Chrome。
如何找出无法搜索文档的原因?
我检查过的东西:
那么,DPF 不可搜索的其他原因可能是什么?以及如何使其可文本搜索?
它可能具有自定义字体编码,以与已建立的编码(例如 ASCII 或 UTF-8/Unicode)不兼容的方式为字符分配代码点。
它可能会不按顺序单独呈现字符
它可能已将字符扁平化为路径
请参阅堆栈溢出问题如何调试 PDF 文件?以及现在删除的PDF 字体编码——为什么我不能从 PDF 复制文本?
要使其可进行文本搜索,最好的方法可能是返回原始来源(例如 Word 文档)并使用不同的过程来生成 PDF。或者,您可以尝试将当前的 PDF 渲染为位图,然后使用 OCR,但这会很乏味并且会产生较差的结果。