Pål*_*erg 5 lucene solr full-text-search solr-cell apache-tika
我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.
使用时是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用ExtractingRequestHandler?
我一直在对默认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的默认输出足够时这些文件应该如何.
如果没有最佳实践schema.xml和/或solrconfig.xml我也对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章.
欢迎任何指示!
小智 0
在 Taming Text (http://www.manning.com/ingersoll/) 书中,您可以参考 ExtractingRequestHandler。这本书是关于使用 solr、tika 或 lucene 等开源工具处理文本的。
我已经阅读了第 5 章,到目前为止,这本书解释了如何通过修改文件 schema.xml 以创建不同类型的字段以及在查询或索引中进行处理来扩展 solr 功能。
| 归档时间: |
|
| 查看次数: |
714 次 |
| 最近记录: |