导入富文档时是否有SOLR的最佳实践schema.xml？

Question

我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.

使用时是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用ExtractingRequestHandler？

我一直在对默认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的默认输出足够时这些文件应该如何.

如果没有最佳实践schema.xml和/或solrconfig.xml我也对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章.

欢迎任何指示!

Answer 1

在 Taming Text (http://www.manning.com/ingersoll/) 书中，您可以参考 ExtractingRequestHandler。这本书是关于使用 solr、tika 或 lucene 等开源工具处理文本的。

我已经阅读了第 5 章，到目前为止，这本书解释了如何通过修改文件 schema.xml 以创建不同类型的字段以及在查询或索引中进行处理来扩展 solr 功能。