如何使用java和PDFBox从PDF中获取字符的Unicode

Question

如何使用java和PDFBox从PDF中获取字符的Unicode

我正在使用 Apache PDFBox 和 Java 来解析 PDF 并从中获取所有信息。提取文本仅适用于英语。对于其他语言，我只得到一些特殊字符。例如，提取阿拉伯字符 \xd8\xb4 将在打印时给出字符串 :"? 。当我将计算机的“区域和语言”从英语更改为阿拉伯语时，它工作正常。所以我认为提取字符的 Unicode将解决这个问题。请帮助我从 PDF 中获取字符的 Unicode 或建议我一些解决方案来解决这个问题。

\n

Answer 1

Nee*_*raj 1

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java

私有String escape(String chars)将字符转换为 unicode。

归档时间：	13 年，7 月前
查看次数：	3760 次
最近记录：	11 年，3 月前