如何使用java和PDFBox从PDF中获取字符的Unicode

Nee*_*raj 5 java pdf unicode pdfbox

我正在使用 Apache PDFBox 和 Java 来解析 PDF 并从中获取所有信息。提取文本仅适用于英语。对于其他语言,我只得到一些特殊字符。例如,提取阿拉伯字符 \xd8\xb4 将在打印时给出字符串 :"? 。当我将计算机的“区域和语言”从英语更改为阿拉伯语时,它工作正常。所以我认为提取字符的 Unicode将解决这个问题。请帮助我从 PDF 中获取字符的 Unicode 或建议我一些解决方案来解决这个问题。

\n