相关疑难解决方法(0)

Java：Apache PDFbox提取突出显示的文本

我正在使用Apache PDFbox库从PDF文件中提取突出显示的文本（即黄色背景）。我对这个库是完全陌生的，并且不知道它用于哪个目的。到目前为止，我已经使用以下代码从注释中提取了文本。

PDDocument pddDocument = PDDocument.load(new File("test.pdf"));
    List allPages = pddDocument.getDocumentCatalog().getAllPages();
    for (int i = 0; i < allPages.size(); i++) {
    int pageNum = i + 1;
    PDPage page = (PDPage) allPages.get(i);
    List<PDAnnotation> la = page.getAnnotations();
    if (la.size() < 1) {
    continue;
    }
    System.out.println("Total annotations = " + la.size());
    System.out.println("\nProcess Page " + pageNum + "...");
    // Just get the first annotation for testing
    PDAnnotation pdfAnnot = la.get(0); 
    System.out.println("Getting text from comment = " + pdfAnnot.getContents());

Run Code Online (Sandbox Code Playgroud)

现在，我需要突出显示文本，任何代码示例都将受到高度赞赏。

java pdf pdfbox

Abi*_*han

lucky-day

3
推荐指数

2
解决办法

2898
查看次数

标签统计

java ×1

pdf ×1

pdfbox ×1

Java：Apache PDFbox提取突出显示的文本

标签 统计

标签统计