使用PDFBox从特定页面读取文本

Shy*_*amy 11 java pdfbox

我知道如何使用PDFBox来阅读整个pdf文件的文本PDFTextStripper.getText(PDDocument).

我还有一个关于如何使用特定页面获取对象引用的示例PDDocumentCatalog.getAllPages().get(i).

如何使用PDFBox获取一个页面的文本,因为我在PDPage课堂上没有看到任何这样的方法?

ama*_*ent 22

您可以在PDFTextStripper读取特定页面上设置参数:

PDDocument doc; // document
int i; // page no.

PDFTextStripper reader = new PDFTextStripper();
reader.setStartPage(i);
reader.setEndPage(i);
String pageText = reader.getText(doc);
Run Code Online (Sandbox Code Playgroud)

据我所知,PDPage更多用于在屏幕上表示页面,而不是提取文本.因此,我不建议使用它来提取文本.