不可搜索、不可复制的 PDF 文档

3 pdf

我有一个 PDF 文档,由于某种原因,我无法复制、粘贴或搜索。该 PDF 是基于文本的文件,而不是图像文件。当我尝试将文本复制并粘贴到 Microsoft Word 或 GNU Emacs 中时,我得到了很多小盒子来代替字母。当我尝试在 Adob​​e Reader 中搜索文本时,我找不到可以看到的单词。该文档似乎没有对其应用任何特殊保护。我以前有过一两次 PDF。我尝试在 Google Docs 中打开它,但同样,虽然它以明文形式出现,但我无法搜索它。这是否对任何人敲响了警钟?

我尝试查看 PDF 的字体,它看起来像这样:

--font-65795-6--(嵌入式子集)
类型:TrueType
编码:内置
Century(嵌入式子集)
类型:TrueType
编码:内置

其次是 Century、Helvetica、Symbol、Times-Roman 和 Verdana 的类似行。

har*_*ymc 5

此 PDF 可能包含嵌入其中的自己的字体。在这种情况下,虽然 PDF 仍会正确显示,但并非总是可以获得正确的文本信息,因此无法复制。

字体实际上都是嵌入的,但在某种程度上,所有的编码信息都已被删除。当在语法上仍然完全符合 PDF 规范的 PDF 在制作 PDF 的过程中丢弃了有关其中文本含义的重要信息时,就会发生这种情况。恢复编码信息非常困难,有时最好的选择是将页面转换为 TIFF,然后运行 ​​OCR ...

您可以尝试 PDF 到 Word 转换器,例如AnyBizSoft网站转换器。转换后,您可以从单词或文本文件中获取任何您想要的内容。这是AnyBizSoft的分步教程。(AnyBizSoft 被很多人推荐,但我个人从未使用过。)

另请参阅最佳免费 PDF 工具以获取更多工具和转换器。