相关疑难解决方法(0)

PDF 复制粘贴时出现乱码

我正在尝试从 PDF 文件复制和粘贴文本。

但是,每当我粘贴原始文本时,都是一堆乱码。文本如下所示(这只是一小部分摘录):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 
Run Code Online (Sandbox Code Playgroud)

我在 Adob​​e 和 Foxit PDF 阅读器中都试过了。我在 Adob​​e Reader 中执行了“另存为文本”,结果文本文件是相同的乱码。

有什么想法可以让我的文本不乱码吗?(除了手动输入……还有很多文本需要提取。)

pdf adobe-reader foxit-reader

33
推荐指数
3
解决办法
16万
查看次数

使用非标准字符编码搜索 PDF

当您复制文本(即使它们呈现正常)时,某些 PDF 文件会产生垃圾(“ mojibake ”)。这使得无法搜索它们(您搜索的任何内容都不会与垃圾匹配)。

有没有人有一个简单的解决方法?

例子:

  1. TEAC TV 手册 EU2816STF(在 Windows 和 Mac 上的 Adob​​e Reader 中产生上述问题,但在 Mac 上的预览中工作正常)
  2. Leadtek Winfast PVR2 手册(FTP 链接;在 Mac 上预览也有问题)
  3. Swann TV 调谐器卡手册(FTP 链接;在 Mac 上预览也有问题)
  4. Phonedisc 许可协议(来自现已解散的DTMS
  5. 麦格理 IFP 季度基金回顾
  6. BAN-TACS 小型企业手册(存档版)
  7. 2004 年复活节传单(也来自档案)

我正在使用适用于 Windows 的 Adob​​e Reader(最新版本) - 也许其他查看器可能会有所帮助?我正在寻找适用于 Windows 的免费解决方案。开源会更好。

编辑:Multivalent Extract Text 工具的文档很好地总结了为什么会出错,包括:(引用的文档最后修改时间为 2006 年 1 月)

  • 文本可能没有 Unicode 映射。PDF Type 3 字体通常没有,而 TeX DVI 具有没有 Unicode 等价物的字符。
  • Unicode …

search pdf character-encoding

19
推荐指数
1
解决办法
1万
查看次数