小编Lor*_*ert的帖子

Apache Tika提取扫描PDF文件

我在使用Apache TIKA(版本1.10)时遇到了一些麻烦.我得到了一些PDF文件,这些文件只是扫描过的纸片.这意味着每个页面只是一个图像.我的目标是提取PDF文件的文本.

我的tesseract设置正确,提取JPG和PNG文件就像一个魅力.我使用的代码看起来像那样(不介意缺少的排除处理):

public String extractText(InputStream stream) {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    Metadata metadata = new Metadata();
    ParseContext context = new ParseContext();
    parser.parse(stream, handler, metadata, context);
    String text = handler.toString();
    return text;
}

Run Code Online (Sandbox Code Playgroud)

我搜索了很多,但我找不到任何适合我的解决方案.我已经尝试过该类的setExtractInlineImages方法,PDFParserConfig但这并没有改变一件事.使用自定义提取嵌入的文档ParsingEmbeddedDocumentExtractor确实提取了doc文件的嵌入资源,但不提取我的PDF文件.

如果你们中的任何人都可以提供一些帮助,那将是非常棒的:)

java pdf ocr tesseract apache-tika

Lor*_*ert

lucky-day

9
推荐指数

1
解决办法

9707
查看次数