是否有PDF文件指定其编码的字段?

blz*_*blz 17 pdf unicode utf

我知道仅通过查看数据就无法确定任何字符串形式数据的字符编码.这不是我的问题.

我的问题是:PDF文件中是否有一个字段,按照惯例,指定了编码方案(例如:UTF-8)?这与<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8">HTML中大致类似.

非常感谢,Blz

Mat*_*man 13

快速浏览PDF规范似乎表明您可以在PDF文件中使用不同的编码.请查看第86页.因此,具有某种低级访问权限的PDF库应该能够为您提供用于字符串的编码.但是如果您只是想要文本并且不关心所使用的内部编码,我建议让图书馆为您处理转换.

  • -1表示仅链接答案.http://meta.stackexchange.com/questions/8231/are-answers-that-just-contain-links-elsewhere-really-good-answers (4认同)
  • 谢谢你的链接。我想我原来的问题仍然存在......有没有办法在文件元数据中获取编码? (2认同)
  • 为什么要知道PDF中使用的不同编码?是不是你不需要处理那个好?如果问题是您想要将PDF中的文本输出到不同的编码,我认为您最好始终将其提取为UTF-8并将其转换为您想要的任何编码. (2认同)