小编Che*_*dha的帖子

Tika 1.1 性能改进

我正在使用 tika 1.1，我面临着 tika 需要很长时间才能从文件中提取内容的问题。提取 1MB 的 pdf/doc 文件大约需要 3 秒的时间。有什么办法可以提高性能吗？任何有助于提高性能的调整、配置。

我尝试过 tika 1.4，但不幸的是，相同的 pdf 时间约为 3.2 秒。

我正在使用 BodyContentHandler。

public class TikkaExtractor {
public static void main(String[] args) throws Exception {
    BodyContentHandler handler = new BodyContentHandler(10000);
    Metadata metadata = new Metadata();
    Parser parser = new AutoDetectParser();
    InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
    parser.parse(content, handler, metadata, new ParseContext());
    ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
    String s = contentHandlerDecorator.toString();
    content.close();
}

Run Code Online (Sandbox Code Playgroud)

}

java data-extraction apache-tika

Che*_*dha

2013 12-24

5
推荐指数

0
解决办法

866
查看次数