ngm*_*ngm 33 pdf adobe-reader foxit-reader
我正在尝试从 PDF 文件复制和粘贴文本。
但是,每当我粘贴原始文本时,都是一堆乱码。文本如下所示(这只是一小部分摘录):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Run Code Online (Sandbox Code Playgroud)
我在 Adobe 和 Foxit PDF 阅读器中都试过了。我在 Adobe Reader 中执行了“另存为文本”,结果文本文件是相同的乱码。
有什么想法可以让我的文本不乱码吗?(除了手动输入……还有很多文本需要提取。)
aca*_*ept 15
解决此问题的最简单方法是使用内置 PDF 阅读插件在最新版本的 Google Chrome 中打开文件。然后您可以使用 Chrome 的搜索功能来查找文本,并且复制粘贴可以正常工作。
我想投票赞成 pipitas 对 Shiki 回答的评论,但我没有信用:( 问题可能是自定义字体编码,而不是加密。在 Acrobat 中,单击“文件”->“属性”,然后单击“字体”选项卡以查看编码,以及“安全”选项卡以查看它是否已加密。
对我有用的解决方案:
结果并不完美,但让我完成了 80% 的工作,并为我提供了足够的文本,我不必重写所有内容!
我在创建的 PDF 中发现了这个问题,并且我相信我找到了问题的根源:使用 Mac OS X 的预览来减小 PDF 文件的大小。
我使用 Colorsync Utility 创建了一些 Quartz 滤镜来压缩 PDF 中的图像,以减少包含图像的 PDF 的整体文件大小。如这里所述:http://www.macosxhints.com/article.php? story=20031106133852693
我发现我能够轻松地从原始(未压缩)PDF 文件中复制和粘贴文本,但是通过我创建的减少文件大小过滤器运行该 PDF 后,生成的压缩 PDF 无法清晰地复制粘贴(看起来像您发布的字符串)。
然而,通过 Adobe Acrobat Pro 的“文档”>“减小文件大小”功能运行相同的原始 PDF,生成的压缩 PDF 可以成功复制和粘贴文本。
因此,这对您的情况并不完全有帮助,假设您的 PDF 文件是从其他地方收到的,并且您无法获取原始版本(如果它确实以某种方式压缩)。但这可能是解释 - 文件被以某种方式破坏以减少文件大小。
这对于在从 PDF 复制和粘贴文本时遇到类似问题的内容创建者来说可能很有用 - 使用 OS X Quartz 过滤器缩小 PDF 时要小心!
--edit-- 在将 PDF 与预览结合使用时,我也注意到了这个问题。两个源 PDF 可以很好地复制和粘贴,但是当将页面从一个文件拖到另一个文件中,然后保存合并的 PDF 时,合并文档中的文本无法复制/粘贴。这是在 Mac 上使用 Filemaker Pro 11 同时生成的两个文档 - 我无法想象它们会有不同的编码或任何类似的东西。
| 归档时间: |
|
| 查看次数: |
161980 次 |
| 最近记录: |