Mar*_*tin 4 lucene zend-framework zend-search-lucene zend-lucene
我使用Zend Lucene索引瑞典文本.问题在于,lucene在瑞典字符tokenäö中标记了单词.例如,单词"världens"在索引中变成两个单词"v"和"ldens".
有没有办法添加zend lucene应该接受的字符而不是标记化?
使用UTF-8兼容的文本分析器代替默认文本分析器进行标记化.请注意,这需要PHP的PCRE(Perl兼容的正则表达式)库使用UTF-8支持进行编译(默认情况下,如果您使用与PHP捆绑的PCRE库,但如果使用共享库则可能未启用).对于UTF-8兼容分析器的不区分大小写的版本,还需要启用mbstring扩展.