使用 Lucene.net 索引多语言内容

Nic*_*ick 5 multilingual search lucene.net localization

我使用Lucene.net为网站上的内容和文档等编制索引。索引非常简单,格式如下:

LuceneId - Lucene 的唯一 ID(TypeId + ItemId)
TypeId - 文本类型(例如页面内容、产品、公共文档等。)
ItemId - 网页 ID、文档 ID 等。
文本 - 索引的文本
标题 - 与搜索结果一起显示的网页标题、文档名称等

我有这些选项来调整它以提供多语言内容:

  1. 为每种语言创建一个单独的索引。例如 Lucene-enGB、Lucene-frFR 等。
  2. 保留 one 索引并向其添加额外的“语言”字段以过滤结果。

哪个是最好的选择 - 还是有另一个?我以前没有使用过多个索引,所以我倾向于第二个。

che*_*vim 3

我这样做[2],但我遇到的一个问题是我无法根据语言使用不同的分析器。我已经组合了我想要的语言的停用词,但是我失去了分析器提供的更高级功能的功能,例如词干提取等。