小编Sle*_*nej的帖子

Android Studio 上的 PDFBox 文本提取连字“fi”、“fl”问题

我正在 Android Studio 库上使用https://github.com/TomRoush/PdfBox-Android PDFBox 从 PDF 文档中提取文本。这就是我正在做的事情:

\n\n
File pdf_file = new File(file_path);\n
Run Code Online (Sandbox Code Playgroud)\n\n

创建文件,然后

\n\n
PDDocument document = null;\ndocument = PDDocument.load(pdf_file);\n
Run Code Online (Sandbox Code Playgroud)\n\n

将文件加载到 PDDocument 对象中,然后

\n\n
PDFTextStripper pdfStripper = new PDFTextStripper();\npdfStripper.setStartPage(...);\npdfStripper.setEndPage(...);\nString page_text = pdfStripper.getText(document);\n
Run Code Online (Sandbox Code Playgroud)\n\n

获取页面的文本内容。问题是,例如,当出现“firm”一词时,它会显示为“fi rm”。它基本上在 fi 之后放置一个空格(我猜 fls 和其他连字)。我尝试阅读此Problems with extracting OpenTypeFont text using pdfBox但我不明白如何解决它。没有解决方案的详细信息。

\n\n

重要提示:事实证明,在我的 PDF 文件中,我没有任何连字,例如 \xef\xac\x81,但我有常规 fi,但后面有空格。解决方案尚不清楚。

\n\n

PDF文件:https://wetransfer.com/downloads/09e9036dda4a7962ccad32b1cbcd8edc20200506050349/ab4752

\n

java text-extraction pdfbox android-studio

3
推荐指数
1
解决办法
868
查看次数

标签 统计

android-studio ×1

java ×1

pdfbox ×1

text-extraction ×1