相关疑难解决方法(0)

替代 Tika/PDFBox 用于在 Solr 中解析 PDF（1.4 之后的任何版本）

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika（我相信它在内部使用 PDFBox）来解析 PDF 文件？使用它时，我的内容之间似乎有随机空格。我通过直接通过 PDFBox（最新版本）运行 PDF 来隔离问题，该问题具有相同的问题。

一些 OCR 商业软件（如 Omnifind）可以很好地处理 PDF，但我们无法以相同的方式将它们与 Solr 集成，购买也不是一种选择。

solr document-conversion full-text-indexing pdfbox apache-tika

Rav*_*dev

lucky-day

5
推荐指数

1
解决办法

5265
查看次数

如何在Lucene 3.5.0中提取文档术语向量

我正在使用Lucene 3.5.0,我想输出每个文档的术语向量.例如,我想知道所有文档和每个特定文档中术语的频率.我的索引代码是:

import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;

import java.io.File;
import java.io.FileReader;
import java.io.BufferedReader;

import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Document;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

public class Indexer {
public static void main(String[] args) throws Exception {
        if (args.length != 2) {
        throw new IllegalArgumentException("Usage: java " + Indexer.class.getName() + " <index dir> <data dir>");
    }

    String indexDir = args[0];
    String dataDir = args[1];
    long start = System.currentTimeMillis();
    Indexer indexer = new Indexer(indexDir);
    int numIndexed; …

Run Code Online (Sandbox Code Playgroud)

java lucene indexing

ore*_*ani

lucky-day

4
推荐指数

1
解决办法

1万
查看次数