当您复制文本(即使它们呈现正常)时,某些 PDF 文件会产生垃圾(“ mojibake ”)。这使得无法搜索它们(您搜索的任何内容都不会与垃圾匹配)。
有没有人有一个简单的解决方法?
例子:
我正在使用适用于 Windows 的 Adobe Reader(最新版本) - 也许其他查看器可能会有所帮助?我正在寻找适用于 Windows 的免费解决方案。开源会更好。
编辑:Multivalent Extract Text 工具的文档很好地总结了为什么会出错,包括:(引用的文档最后修改时间为 2006 年 1 月)
- 文本可能没有 Unicode 映射。PDF Type 3 字体通常没有,而 TeX DVI 具有没有 Unicode 等价物的字符。
- Unicode …
可能重复:
复制粘贴时 PDF 出现乱码
我正在阅读Jerome H. Friedman 论文“数据挖掘和统计:有什么联系?”的PDF 副本。使用谷歌浏览器。
它包含一个有趣的引语,我想将其复制并粘贴到我的博客中。
我用鼠标选择引用的文本,然后按CTRL+C复制文本。该文件如下所示:

当我将文本粘贴到记事本、Stack Overflow 或其他任何地方时,该产品就像 Wingdings 一样乱码:
?????????????????????????????????????????? ?????????????????????????????????????????????????????? ???????????????????????? ????????????????P???? ?????????????????????P?????????????????????????????? ?????????????????????????????????????????? ????????????Þ??????????????????????????????????????? ?????????????????????????????????
文本应如下所示:
这个领域的统计学家和计算机科学家之间的区别似乎在于,当统计学家有一个想法时,他或她会写一篇论文;一位计算机科学家创办了一家公司。
我不得不手动输入该文本。这对于这么小的报价是可行的,但我如何实际复制我所看到的?
PDF、浏览器、插件或三者的某种组合有什么不寻常的地方吗?