Lucene中的多个或单个索引?

Bru*_*eis 14 lucene

我必须索引应该一起搜索的不同类型的数据(文本文档,论坛消息,用户配置文件数据等)(即,单个搜索将返回不同类型数据的结果).

  • 拥有多个索引的优点和缺点是什么,每种索引对应一种?

  • 以及为各种数据提供单一索引的优缺点?

谢谢.

Meh*_*ahi 5

如果要通过一次搜索搜索所有类型的文档,最好将所有类型保存到一个索引.在索引中,您可以定义要对其进行Tokenize或Vectore的更多字段类型.需要一段时间才能为每个IndexSearcher引入一个包含indeces的目录.

如果要单独搜索术语,最好将每种类型索引到一个索引.单个索引比多个索引更具结构性.

另一方面,我们可以平衡我们的负载与多个indeces.


gre*_*ama 2

不一定回答您的直接问题,但是......;)

我会使用一个索引,为该类型添加一个关键字(索引、存储)字段,它可以让您在需要时进行过滤,并告诉您收到的结果之间的差异。

(也许按照您的问题...使用单独的索引将允许每个语料库拥有自己的相关性分数,不知道一个语料库中过度重复的术语是否会影响其他语料库中文档的相关性?)