TIM*_*MEX 3 lucene unicode search sphinx utf-8
我希望人们能够搜索#photography到photography.这些应该被视为Sphinx中的两个不同的词.默认情况下,#photography映射到photography,我无法搜索主题标签.
我在这个页面上看到你可以将hash标签添加到charset_table来完成这个任务.我完全不懂如何做到这一点.我不知道unicode,我不知道我的charset_table应该是什么.
谁能告诉我我的charset_table应该是什么?谢谢.
# charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
Run Code Online (Sandbox Code Playgroud)
注意:我打算使用实时索引.(不确定这是否有所不同)
这是U+0023根据Unicode表.所以最终的配置应该是这样的
charset_table = 0..9, A..Z->a..z, _, a..z, U+23, U+410..U+42F->U+430..U+44F, U+430..U+44F
Run Code Online (Sandbox Code Playgroud)
不要忘记charset_type变量.AFAIK,这个例子charset_table是为了utf-8.除此之外,您应该U+23从blend_chars变量中删除以允许Sphinx将其作为合法字符编入索引.