相关疑难解决方法(0)

如何在pdfbox 2.0.0上的truetype0font中添加unicode?

我一直在Java项目中使用PDFBOX版本2.0.0将pdf转换为文本.

我的几个pdf都缺少ToUnicode方法,所以当我导出它们时它们会以Gibberish出现.

2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1

在上面的WARN中,提出了一个乱码的unicode(30)而不是真实的角色.

我能够通过编辑additional.txtpdfbox中的文件来克服它,因为从试验和错误我理解角色的代码(在这种情况下为694)代表某个希伯来字母(צ).

这是我在文件中编辑的简短示例:

-694;05E6 #HexaDecimal value for the letter ?
-695;05E7
-696;05E8
Run Code Online (Sandbox Code Playgroud)

后来我在不同的pdf上遇到了几乎相同的警告,但是没有乱码,我根本没有任何角色.这里可以看到更详细的这个问题的探索 - 通过pdf pdfbox在java中阅读

2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold

正如您所看到的,警告来自不同的class(PDType0Font)而不是第一个警告(PDSimpleFont),但代码名称(694)在两者中都是相同的,并且它们都在谈论相同的字符.

是否有一个不同的文件我应该编辑,而不是additional.txt将694代码(希伯来字母point)指向它的正确unicode?

谢谢 主根

向下钻取第一个type0字体

unicode glyph pdfbox

4
推荐指数
1
解决办法
4637
查看次数

标签 统计

glyph ×1

pdfbox ×1

unicode ×1