如何使用非ASCII编码从PDF剪切粘贴？

Question

如何使用非ASCII编码从PDF剪切粘贴？

我有一些PDF,我正在尝试将包含在Acrobat Reader中的文本剪切并粘贴到HTML表单中.似乎这些文件中的一些使用(我怀疑)unicode用于文本编码,所以当我尝试粘贴到HTML表单(在firefox上)时,我得到了带有十六进制字符的小盒子而不是可读文本.问题不在于PDF没有被OCR - 当我尝试在Acrobat Pro中这样做时它说它不能,因为该文件已经包含可渲染文本.有什么方法可以解决这个问题吗？例如,我可以在转换的表单中添加某种javascript吗？

Answer 1

Bob*_*sky 9

您是否可以将从文件复制的文本粘贴到其他程序(如记事本或Word或其他任何程序)中？

生成的某些PDF文件没有对从中成功提取文本至关重要的特殊信息.即使是Adobe工具.基本上,这些文件不包含字形到字符映射信息.

这些文件将被正确显示和打印,但无法正确复制/提取文本.

例如,当使用"最小文件大小"预设时,Distiller会生成此类文件.

Answer 2

小智 5

我有同样的问题...确实在这里进行了解释：http : //forums.adobe.com/thread/915012

我的解决方案是使用Acrobat的导出工具将pdf转换为Word，然后从中提取所需的信息。

这很令人沮丧，但是可以正常工作。

我发现的另一个解决方案是将pdf转换为图像（jpeg，png等），然后运行OCR进程。

归档时间：	14 年前
查看次数：	26542 次
最近记录：	7 年前