在Lucene中获取每个文档的搜索词Hits(出现次数)

1 lucene search

任何人都可以建议我在Lucene中获得每个文档的单词Hits(没有出现)的最佳方法吗?

Yuv*_*l F 6

Lucene使用基于字段的索引,而不是基于文档的索引.为了获得每个文档的术语计数:

  1. 使用IndexReader.document()和isDeleted()迭代文档.
  2. 在文档d中,使用Document.getFields()迭代字段.
  3. 对于每个字段f,使用getTermFreqVector()获取术语.
  4. 翻阅术语向量和每个术语的和频率.
  5. 每个字段的术语频率总和将为您提供文档的术语频率向量.