小编Sle*_*nej的帖子

Android Studio 上的 PDFBox 文本提取连字“fi”、“fl”问题

我正在 Android Studio 库上使用https://github.com/TomRoush/PdfBox-Android PDFBox 从 PDF 文档中提取文本。这就是我正在做的事情：

\n\n

File pdf_file = new File(file_path);\n

Run Code Online (Sandbox Code Playgroud)\n\n

创建文件，然后

\n\n

PDDocument document = null;\ndocument = PDDocument.load(pdf_file);\n

Run Code Online (Sandbox Code Playgroud)\n\n

将文件加载到 PDDocument 对象中，然后

\n\n

PDFTextStripper pdfStripper = new PDFTextStripper();\npdfStripper.setStartPage(...);\npdfStripper.setEndPage(...);\nString page_text = pdfStripper.getText(document);\n

Run Code Online (Sandbox Code Playgroud)\n\n

获取页面的文本内容。问题是，例如，当出现“firm”一词时，它会显示为“fi rm”。它基本上在 fi 之后放置一个空格（我猜 fls 和其他连字）。我尝试阅读此Problems with extracting OpenTypeFont text using pdfBox但我不明白如何解决它。没有解决方案的详细信息。

\n\n

重要提示：事实证明，在我的 PDF 文件中，我没有任何连字，例如 \xef\xac\x81，但我有常规 fi，但后面有空格。解决方案尚不清楚。

\n\n

PDF文件：https://wetransfer.com/downloads/09e9036dda4a7962ccad32b1cbcd8edc20200506050349/ab4752

java text-extraction pdfbox android-studio

Sle*_*nej

2020 05-07

3
推荐指数

1
解决办法

868
查看次数