我正在寻找有关哪个分析器与包含多种语言文档的索引一起使用的反馈.目前我正在使用简单分析器,因为它似乎处理最广泛的语言.大多数要编入索引的文档都是英文版,但偶尔会有双字节语言编入索引.
还有其他建议,还是我应该坚持使用简单分析器.
谢谢
根据您的描述,我假设您有多种语言的文档,但每个文档只有一种语言的文本.
对于这种情况,您可以使用Nutch的语言标识来获取文档的语言.然后使用相应的语言分析器进行索引 要获得正确的搜索结果,您需要将语言标识应用于搜索查询并使用该分析器.
这方面的好处是你将能够使用特定于语言的词干和停用词,从而提高搜索质量.索引时的额外开销应该是可以接受的.然而,语言识别无法识别正确语言的搜索查询可能会受到影响.我已经使用了这几年,结果比预期好.
对于CJK,您可以应用类似的技术,但工具可能会有所不同.
SimpleAnalyzer 确实很简单,它所做的只是将术语小写。我本以为即使对于非英语数据,StandardAnalyzer 也会比 SimpleAnalyzer 提供更好的结果。除了默认的英语语言之外,您还可以通过提供自定义停用词列表来稍微改进它。