我正在 Android Studio 库上使用https://github.com/TomRoush/PdfBox-Android PDFBox 从 PDF 文档中提取文本。这就是我正在做的事情:
\n\nFile pdf_file = new File(file_path);\nRun Code Online (Sandbox Code Playgroud)\n\n创建文件,然后
\n\nPDDocument document = null;\ndocument = PDDocument.load(pdf_file);\nRun Code Online (Sandbox Code Playgroud)\n\n将文件加载到 PDDocument 对象中,然后
\n\nPDFTextStripper pdfStripper = new PDFTextStripper();\npdfStripper.setStartPage(...);\npdfStripper.setEndPage(...);\nString page_text = pdfStripper.getText(document);\nRun Code Online (Sandbox Code Playgroud)\n\n获取页面的文本内容。问题是,例如,当出现“firm”一词时,它会显示为“fi rm”。它基本上在 fi 之后放置一个空格(我猜 fls 和其他连字)。我尝试阅读此Problems with extracting OpenTypeFont text using pdfBox但我不明白如何解决它。没有解决方案的详细信息。
\n\n重要提示:事实证明,在我的 PDF 文件中,我没有任何连字,例如 \xef\xac\x81,但我有常规 fi,但后面有空格。解决方案尚不清楚。
\n\nPDF文件:https://wetransfer.com/downloads/09e9036dda4a7962ccad32b1cbcd8edc20200506050349/ab4752
\n