小编Sve*_*ova的帖子

从pdf文件中提取文本时出错(java + pdfbox)

我想从 pdf 文件中提取文本。为此,我使用 pdfbox。首先我添加以下依赖项:

<dependencies>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.4</version>
        </dependency>

    </dependencies>
Run Code Online (Sandbox Code Playgroud)

所以,这里是我从 pdf 中提取文本的代码:

import org.apache.pdfbox.cos.COSDocument;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class Main {

    public static void main(String[] args) {
        PDFTextStripper pdfStripper = null;
        PDDocument pdDoc = null;
        COSDocument cosDoc = null;
        File file = new File("C:/Users/Ann/Desktop/example.pdf");
        try {


            PDFParser parser = new PDFParser(new FileInputStream(file)); // in this line i get error
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = …
Run Code Online (Sandbox Code Playgroud)

java pdfbox

0
推荐指数
1
解决办法
4514
查看次数

标签 统计

java ×1

pdfbox ×1