我无法使用PDFBox将unicode字符写入PDF.下面是一些生成垃圾字符而不是输出"š"的示例代码.我可以添加什么来获得对UTF-8字符串的支持?
PDDocument document = new PDDocument();
PDPage page = new PDPage();
document.addPage(page);
PDPageContentStream contentStream = new PDPageContentStream(document, page);
PDType1Font font = PDType1Font.HELVETICA;
contentStream.setFont(font, 12);
contentStream.beginText();
contentStream.moveTextPositionByAmount(100, 400);
contentStream.drawString("š");
contentStream.endText();
contentStream.close();
document.save("test.pdf");
document.close();
Run Code Online (Sandbox Code Playgroud) 我用Apache PDFBox库创建了一个PDF文档.我的问题是在页面上绘制字符串时编码欧元货币符号,因为基本字体Helvetica不提供此字符.如何将输出"þÿ¬"转换为符号"€"?
我正在使用 Apache PDFBox 和 Java 来解析 PDF 并从中获取所有信息。提取文本仅适用于英语。对于其他语言,我只得到一些特殊字符。例如,提取阿拉伯字符 \xd8\xb4 将在打印时给出字符串 :"? 。当我将计算机的“区域和语言”从英语更改为阿拉伯语时,它工作正常。所以我认为提取字符的 Unicode将解决这个问题。请帮助我从 PDF 中获取字符的 Unicode 或建议我一些解决方案来解决这个问题。
\n