替代 Tika/PDFBox 用于在 Solr 中解析 PDF(1.4 之后的任何版本)

Rav*_*dev 5 solr document-conversion full-text-indexing pdfbox apache-tika

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。

一些 OCR 商业软件(如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。

Tom*_*Leu 2

正如这个 SO 问题的答案所示,这是由于 PDF 格式本身的性质造成的。

OCR 选项在这个问题上可能比 PDFBox 做得更好,有一些免费的 OCR 选项可用,例如TesseractOcropus,但我不知道它们的工作效果如何,也不知道它们是否可以轻松地与 Solr 集成。