相关疑难解决方法(0)

使用非标准字符编码搜索 PDF

当您复制文本(即使它们呈现正常)时,某些 PDF 文件会产生垃圾(“ mojibake ”)。这使得无法搜索它们(您搜索的任何内容都不会与垃圾匹配)。

有没有人有一个简单的解决方法?

例子:

  1. TEAC TV 手册 EU2816STF(在 Windows 和 Mac 上的 Adob​​e Reader 中产生上述问题,但在 Mac 上的预览中工作正常)
  2. Leadtek Winfast PVR2 手册(FTP 链接;在 Mac 上预览也有问题)
  3. Swann TV 调谐器卡手册(FTP 链接;在 Mac 上预览也有问题)
  4. Phonedisc 许可协议(来自现已解散的DTMS
  5. 麦格理 IFP 季度基金回顾
  6. BAN-TACS 小型企业手册(存档版)
  7. 2004 年复活节传单(也来自档案)

我正在使用适用于 Windows 的 Adob​​e Reader(最新版本) - 也许其他查看器可能会有所帮助?我正在寻找适用于 Windows 的免费解决方案。开源会更好。

编辑:Multivalent Extract Text 工具的文档很好地总结了为什么会出错,包括:(引用的文档最后修改时间为 2006 年 1 月)

  • 文本可能没有 Unicode 映射。PDF Type 3 字体通常没有,而 TeX DVI 具有没有 Unicode 等价物的字符。
  • Unicode …

search pdf character-encoding

19
推荐指数
1
解决办法
1万
查看次数

如何从 PDF 复制此报价?

可能重复:
复制粘贴时 PDF 出现乱码

我正在阅读Jerome H. Friedman 论文“数据挖掘和统计:有什么联系?”的PDF 副本。使用谷歌浏览器。

它包含一个有趣的引语,我想将其复制并粘贴到我的博客中。

我用鼠标选择引用的文本,然后按CTRL+C复制文本。该文件如下所示:

杰罗姆论文中的重点引述。

当我将文本粘贴到记事本、Stack Overflow 或其他任何地方时,该产品就像 Wingdings 一样乱码:

?????????????????????????????????????????? ?????????????????????????????????????????????????????? ???????????????????????? ????????????????P???? ?????????????????????P?????????????????????????????? ?????????????????????????????????????????? ????????????Þ??????????????????????????????????????? ?????????????????????????????????

文本应如下所示:

这个领域的统计学家和计算机科学家之间的区别似乎在于,当统计学家有一个想法时,他或她会写一篇论文;一位计算机科学家创办了一家公司。

我不得不手动输入该文本。这对于这么小的报价是可行的,但我如何实际复制我所看到的?

PDF、浏览器、插件或三者的某种组合有什么不寻常的地方吗?

pdf google-chrome copy-paste

5
推荐指数
1
解决办法
6866
查看次数