使用Solr为带有页码的PDF编制索引

Dan*_*per 5 pdf solr full-text-search solr-cell apache-tika

我正在使用ExtractingRequestHandler为Solr索引PDF.我想在文档中显示页码和点击,例如" 在第2,3和5页foo中找到了术语bar.pdf".

是否可以在查询结果中包含页码?

Kar*_*son 5

这需要一些开发工作,但您可以通过将每个文档的每个页面索引为单独的Solr文档来实现此目的,然后使用字段折叠来为每个文档分组不同的页面命中.

请注意,您需要每晚一次,在任何当前发布的Solr版本中都没有实现字段折叠.

另请注意:字段折叠在版本Solr 3.3中实现.预计下一个大版本会有更多更新(Solr 4.0)