我们使用PDFBox从PDF中提取文本.
某些PDF文本无法正确提取.下图显示了PDF作为图像的一部分:

文本提取后,我们得到以下文本:
3,8 5 EU R 1 Netto 38,50 EUR 4,00
(在','和'8'之间添加空格)
这是我们的代码:
PDDocument pdf = PDDocument.load(reuseableInputStream);
PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);
String text = pdfStripper.getText(pdf);
Run Code Online (Sandbox Code Playgroud)
我们试图使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有正面效果.
备用库'iText'正确提取文本,字符之间没有空格.但由于许可证问题,我们无法使用它.
有任何想法吗?谢谢.
编辑:我们使用的是1.8.9版本.我们还尝试了快照版本2.0.0而没有任何效果.