小编Tob*_*asH的帖子

Apache PDFBox删除字符之间的空格

我们使用PDFBox从PDF中提取文本.

某些PDF文本无法正确提取.下图显示了PDF作为图像的一部分:

在此输入图像描述

文本提取后,我们得到以下文本:
3,8 5 EU R 1 Netto 38,50 EUR 4,00
(在','和'8'之间添加空格)

这是我们的代码:

            PDDocument pdf = PDDocument.load(reuseableInputStream);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            pdfStripper.setSortByPosition(true);
            String text = pdfStripper.getText(pdf);
Run Code Online (Sandbox Code Playgroud)

我们试图使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有正面效果.

备用库'iText'正确提取文本,字符之间没有空格.但由于许可证问题,我们无法使用它.

有任何想法吗?谢谢.

编辑:我们使用的是1.8.9版本.我们还尝试了快照版本2.0.0而没有任何效果.

text-extraction pdf-parsing pdfbox

5
推荐指数
1
解决办法
2768
查看次数

标签 统计

pdf-parsing ×1

pdfbox ×1

text-extraction ×1