Cod*_*key 3 pdf text-extraction character-encoding
我有一个名为PDF2XL的软件,它通常适用于从PDF文件中提取数据表.我以前用过数百个文件.
这个文件虽然给了我乱码输出,我甚至无法正确复制和粘贴到这个textarea.各种各样的unicode古怪.
如果我按照正常情况复制并粘贴到excel/notepad中,我会遇到同样的问题.
我假设它与PDF文件中混乱的字符编码标题有关?我怎么能改变这个?我在Windows上没有可以编辑PDF的软件,所以如果我需要编辑/重新保存它,请推荐一个免费的SW来完成它.
谢谢!
使用的子化字体有越来越多的PDF文件,基本上是自定义编码.通常,PDF中的字体描述符应该具有ToUnicode表,以允许文本提取解码字体编码并返回正确的文本.
一些PDF生产商正在故意这样做,以防止对财务报告等内容进行简单的PDF文本提取.如果只有一种字体,那么你可以手动解码字体,但根据我的经验,我看到PDF有多个随机编码,这使得几乎不可能自动解码.
测试这些类型的PDF的一种方法是在Acrobat中打开文件,选择一些文本,复制它然后将其粘贴到记事本中.如果文本出现乱码,则PDF使用的是子集化字体,您无法做更多事情.如果Acrobat无法正确提取文本,那么其他任何内容都无法解析.它也可能是一组象形文字.