替代 Tika/PDFBox 用于在 Solr 中解析 PDF（1.4 之后的任何版本）

Question

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika（我相信它在内部使用 PDFBox）来解析 PDF 文件？使用它时，我的内容之间似乎有随机空格。我通过直接通过 PDFBox（最新版本）运行 PDF 来隔离问题，该问题具有相同的问题。

一些 OCR 商业软件（如 Omnifind）可以很好地处理 PDF，但我们无法以相同的方式将它们与 Solr 集成，购买也不是一种选择。

Answer 1

正如这个 SO 问题的答案所示，这是由于 PDF 格式本身的性质造成的。

OCR 选项在这个问题上可能比 PDFBox 做得更好，有一些免费的 OCR 选项可用，例如Tesseract和Ocropus，但我不知道它们的工作效果如何，也不知道它们是否可以轻松地与 Solr 集成。