PDF 复制粘贴时出现乱码

ngm*_*ngm 33 pdf adobe-reader foxit-reader

我正在尝试从 PDF 文件复制和粘贴文本。

但是,每当我粘贴原始文本时,都是一堆乱码。文本如下所示(这只是一小部分摘录):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 
Run Code Online (Sandbox Code Playgroud)

我在 Adob​​e 和 Foxit PDF 阅读器中都试过了。我在 Adob​​e Reader 中执行了“另存为文本”,结果文本文件是相同的乱码。

有什么想法可以让我的文本不乱码吗?(除了手动输入……还有很多文本需要提取。)

aca*_*ept 15

解决此问题的最简单方法是使用内置 PDF 阅读插件最新版本的 Google Chrome 中打开文件。然后您可以使用 Chrome 的搜索功能来查找文本,并且复制粘贴可以正常工作。

我想投票赞成 pipitas 对 Shiki 回答的评论,但我没有信用:( 问题可能是自定义字体编码,而不是加密。在 Acrobat 中,单击“文件”->“属性”,然后单击“字体”选项卡以查看编码,以及“安全”选项卡以查看它是否已加密。

  • chrome 也有同样的问题 (2认同)

Gav*_*ler 7

对我有用的解决方案:

  • 将文档上传到 Google Drive/Docs
  • Google 会将其(截至 2013 年)导入为 PDF
  • 打开 PDF 视图并选择“文件” >“打开方式” >“ Google 文档”
  • 导出文件大约需要一分钟

结果并不完美,但让我完成了 80% 的工作,并为我提供了足够的文本,我不必重写所有内容!

  • 不适合我:( (2认同)

Dan*_*iel 4

我在创建的 PDF 中发现了这个问题,并且我相信我找到了问题的根源:使用 Mac OS X 的预览来减小 PDF 文件的大小。

我使用 Colorsync Utility 创建了一些 Quartz 滤镜来压缩 PDF 中的图像,以减少包含图像的 PDF 的整体文件大小。如这里所述:http://www.macosxhints.com/article.php? story=20031106133852693

我发现我能够轻松地从原始(未压缩)PDF 文件中复制和粘贴文本,但是通过我创建的减少文件大小过滤器运行该 PDF 后,生成的压缩 PDF 无法清晰地复制粘贴(看起来像您发布的字符串)。

然而,通过 Adob​​e Acrobat Pro 的“文档”>“减小文件大小”功能运行相同的原始 PDF,生成的压缩 PDF 可以成功复制和粘贴文本。

因此,这对您的情况并不完全有帮助,假设您的 PDF 文件是从其他地方收到的,并且您无法获取原始版本(如果它确实以某种方式压缩)。但这可能是解释 - 文件被以某种方式破坏以减少文件大小。

这对于在从 PDF 复制和粘贴文本时遇到类似问题的内容创建者来说可能很有用 - 使用 OS X Quartz 过滤器缩小 PDF 时要小心!

--edit-- 在将 PDF 与预览结合使用时,我也注意到了这个问题。两个源 PDF 可以很好地复制和粘贴,但是当将页面从一个文件拖到另一个文件中,然后保存合并的 PDF 时,合并文档中的文本无法复制/粘贴。这是在 Mac 上使用 Filemaker Pro 11 同时生成的两个文档 - 我无法想象它们会有不同的编码或任何类似的东西。