小编Sve*_*ova的帖子

从pdf文件中提取文本时出错（java + pdfbox）

我想从 pdf 文件中提取文本。为此，我使用 pdfbox。首先我添加以下依赖项：

<dependencies>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.4</version>
        </dependency>

    </dependencies>

Run Code Online (Sandbox Code Playgroud)

所以，这里是我从 pdf 中提取文本的代码：

import org.apache.pdfbox.cos.COSDocument;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class Main {

    public static void main(String[] args) {
        PDFTextStripper pdfStripper = null;
        PDDocument pdDoc = null;
        COSDocument cosDoc = null;
        File file = new File("C:/Users/Ann/Desktop/example.pdf");
        try {


            PDFParser parser = new PDFParser(new FileInputStream(file)); // in this line i get error
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = …

Run Code Online (Sandbox Code Playgroud)

java pdfbox

Sve*_*ova

lucky-day

0
推荐指数

1
解决办法

4514
查看次数

标签统计

java ×1

pdfbox ×1

从pdf文件中提取文本时出错（java + pdfbox）

标签 统计

小编Sve_ova的帖子

标签统计