Rav*_*dev 5 solr document-conversion full-text-indexing pdfbox apache-tika
似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。
一些 OCR 商业软件(如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
正如这个 SO 问题的答案所示,这是由于 PDF 格式本身的性质造成的。
OCR 选项在这个问题上可能比 PDFBox 做得更好,有一些免费的 OCR 选项可用,例如Tesseract和Ocropus,但我不知道它们的工作效果如何,也不知道它们是否可以轻松地与 Solr 集成。