Java - PDFBox - 文本提取

Mag*_*ggi 5 java pdfbox

我一直在使用pdfbox从PDF中提取文本信息.我成功地解析了文本的所有属性,如fontname,fontface,size,position等.

问题:我使用的是pdfbox1.2.1(最新版本).TextPosition类中的getCharacter()返回除最后一个字符之外的完整字符串.最后一个字符被解析为单独的字符串.

例如:"你好吗"被解析为"如何哟"和"你"(2个单独的字符串).

我不希望它发生那种方式..

有没有人来过这个?..我做错了什么??等待回复..

谢谢和问候,Magggi

Mag*_*ggi 3

这个问题已经解决了。

下面的代码processEncodedText( byte[] string )PDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}
Run Code Online (Sandbox Code Playgroud)

应该改为

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}
Run Code Online (Sandbox Code Playgroud)

问候, 美极