Solr for Arabic PDF's

per*_*eam 6 solr drupal arabic right-to-left apache-tika

我正在尝试在Apache Solr中搜索阿拉伯语PDF.问题似乎是Tika以相反的顺序(从左到右)而不是(从右到左)索引PDF.

我在这里找到了有关此问题的参考资料:

但是,我不知道如何在我的apache solr中包含最新版本的PDFBOX或ICU4J.我的Apache Solr Contrib/extraction/lib文件夹包含pdfbox-1.6.0.jaricu4j-4.8.1.1.jar.删除上述文件并将其替换为项目页面中的最新库是否令人满意,迫使TIKA使用它们?

请解释一下,因为我没有Java servlet的经验.谢谢!

Jos*_*lls 0

从您问题的标签来看,我假设您正在使用 Drupal 来连接 Apache Solr。当您向 Solr 发送二进制文档时,Tika 可以从 Solr 内部运行,或者您可以在将文档发送到 Solr 之前使用它。Drupal Solr Attachments 模块有一个“Tika(本地 java 应用程序)”的设置。在您提供的第二个链接中,他们修补了 Solr 附件模块,以在将二进制文件发送到 Solr 之前使用 PDFBox 而不是 Tika 来解析二进制文件。如果您不使用 Drupal,您应该尝试类似的方法。