如何使用pdftotext以UTF-8格式保存文本文件

Question

我正在使用pdftotext开源工具将PDF转换为文本文件.如何以UTF-8格式保存文本文件,以便保留文本文件中的所有重音字符.我使用下面的命令转换哪些内容提取到文本文件但不能看到任何重音字符.

pdftotext -enc UTF-8 book1.pdf book1.txt

请帮我解决这个问题.

提前致谢,

Answer 1

您可以使用以下命令获取可用编码列表:

pdftotext -listenc

并使用-enc参数选择正确的一个.我这里似乎默认使用UTF-8.即你的"UTF-8"是超级的

pdftotext -enc UTF-8 your.pdf

您可能想要检查您的语言环境(LC_ALL,LANG,...).

编辑: 我下载了以下PDF:http: //www.i18nguy.com/unicode/unicodeexample.pdf

并使用以下命令在Windows 7 PC(德语)和XPDF 3.02PL5上进行转换:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

文本文件肯定是UTF-8编码的,因为所有字符都正确显示.你在用什么文本文件？如果您通过Web应用程序显示它,您的内容编码可能只是错误,而文本文件已按您的意愿转换.

使用浏览器(强制Firefox中的编码强制为ISO-8859-1和UTF-8)或使用十六进制编辑器进行双重检查.