PdfBox编码符号货币欧元

Car*_*ine 6 java pdfbox

我用Apache PDFBox库创建了一个PDF文档.我的问题是在页面上绘制字符串时编码欧元货币符号,因为基本字体Helvetica不提供此字符.如何将输出"þÿ¬"转换为符号"€"?

mkl*_*mkl 10

不幸的是,PDFBox的字符串编码远非完美(版本1.8.x).不幸的是,它在编码通用PDF对象中的字符串时使用相同的例程,就像在内容流中编码字符串时一样,这是根本错误的.因此,PDPageContentStream.drawString您必须自己转换为正确的编码,而不是使用(使用错误的编码).

例如,而不是使用

    contentStream.beginText();
    contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
    contentStream.setFont(PDType1Font.HELVETICA, 2);
    contentStream.drawString("€");
    contentStream.endText();
    contentStream.close();
Run Code Online (Sandbox Code Playgroud)

结果

€编码错误

你可以使用一些像

    contentStream.beginText();
    contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
    contentStream.setFont(PDType1Font.HELVETICA, 8);
    byte[] commands = "(x) Tj ".getBytes();
    commands[1] = (byte) 128;
    contentStream.appendRawCommands(commands);
    contentStream.endText();
    contentStream.close();
Run Code Online (Sandbox Code Playgroud)

导致

€正确的编码

如果您想知道如何使用128作为€的字节代码,请查看PDF规范ISO 32000-1,附录D.2,拉丁字符集和编码,它们表示八进制值200(十进制128) WinAnsiEncoding中的€符号.


PS:其他答案同时提出了一种替代方法,在符号的情况下,如下所示:

    contentStream.beginText();
    contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
    contentStream.setFont(PDType1Font.HELVETICA, 8);
    contentStream.drawString(String.valueOf(Character.toChars(EncodingManager.INSTANCE.getEncoding(COSName.WIN_ANSI_ENCODING).getCode("Euro"))));
    contentStream.endText();
    contentStream.close();
Run Code Online (Sandbox Code Playgroud)

这确实也画出了'''符号.但即使这种方法看起来更干净(它不使用byte数组,也不会手动构建实际的PDF流操作),它以自己的方式变脏:

要使用破坏的方法,它实际上以正确的方式打破其字符串参数以抵消方法中的错误.

因此,如果PDFBox人员决定修复损坏的PDFBox方法,这里看似干净的解决方法代码将开始失败,因为它将提供固定方法损坏的输入数据.

不可否认,我怀疑他们会在2.0.0之前解决这个错误(并且在2.0.0中固定方法有不同的名称),但是人们永远不会知道......

  • 非常的.但我担心上面的欧元符号可能只能从国际空间站看到. (4认同)