相关疑难解决方法(0)

使用非标准字符编码搜索 PDF

当您复制文本（即使它们呈现正常）时，某些 PDF 文件会产生垃圾（“ mojibake ”）。这使得无法搜索它们（您搜索的任何内容都不会与垃圾匹配）。

有没有人有一个简单的解决方法？

例子：

TEAC TV 手册 EU2816STF（在 Windows 和 Mac 上的 Adobe Reader 中产生上述问题，但在 Mac 上的预览中工作正常）
Leadtek Winfast PVR2 手册（FTP 链接；在 Mac 上预览也有问题）
Swann TV 调谐器卡手册（FTP 链接；在 Mac 上预览也有问题）
Phonedisc 许可协议（来自现已解散的DTMS）
麦格理 IFP 季度基金回顾
BAN-TACS 小型企业手册（存档版）
2004 年复活节传单（也来自档案）

我正在使用适用于 Windows 的 Adobe Reader（最新版本） - 也许其他查看器可能会有所帮助？我正在寻找适用于 Windows 的免费解决方案。开源会更好。

编辑：Multivalent Extract Text 工具的文档很好地总结了为什么会出错，包括：（引用的文档最后修改时间为 2006 年 1 月）

文本可能没有 Unicode 映射。PDF Type 3 字体通常没有，而 TeX DVI 具有没有 Unicode 等价物的字符。

Unicode …

search pdf character-encoding

Hug*_*len

2013 03-20

19
推荐指数

1
解决办法

1万
查看次数

如何从 PDF 复制此报价？

可能重复：
复制粘贴时 PDF 出现乱码

我正在阅读Jerome H. Friedman 论文“数据挖掘和统计：有什么联系？”的PDF 副本。使用谷歌浏览器。

它包含一个有趣的引语，我想将其复制并粘贴到我的博客中。

我用鼠标选择引用的文本，然后按CTRL+C复制文本。该文件如下所示：

杰罗姆论文中的重点引述。

当我将文本粘贴到记事本、Stack Overflow 或其他任何地方时，该产品就像 Wingdings 一样乱码：

?????????????????????????????????????????? ?????????????????????????????????????????????????????? ???????????????????????? ????????????????P???? ?????????????????????P?????????????????????????????? ?????????????????????????????????????????? ????????????Þ??????????????????????????????????????? ?????????????????????????????????

文本应如下所示：