相关疑难解决方法(0)

Java:Apache PDFbox提取突出显示的文本

我正在使用Apache PDFbox库从PDF文件中提取突出显示的文本(即黄色背景)。我对这个库是完全陌生的,并且不知道它用于哪个目的。到目前为止,我已经使用以下代码从注释中提取了文本。

PDDocument pddDocument = PDDocument.load(new File("test.pdf"));
    List allPages = pddDocument.getDocumentCatalog().getAllPages();
    for (int i = 0; i < allPages.size(); i++) {
    int pageNum = i + 1;
    PDPage page = (PDPage) allPages.get(i);
    List<PDAnnotation> la = page.getAnnotations();
    if (la.size() < 1) {
    continue;
    }
    System.out.println("Total annotations = " + la.size());
    System.out.println("\nProcess Page " + pageNum + "...");
    // Just get the first annotation for testing
    PDAnnotation pdfAnnot = la.get(0); 
    System.out.println("Getting text from comment = " + pdfAnnot.getContents());
Run Code Online (Sandbox Code Playgroud)

现在,我需要突出显示文本,任何代码示例都将受到高度赞赏。

java pdf pdfbox

3
推荐指数
2
解决办法
2898
查看次数

标签 统计

java ×1

pdf ×1

pdfbox ×1