Val*_*lev 2 php full-text-search sphinx utf-8 internationalization
最终,我正在创建一个三种语言的网站:英语,俄语和中文.我希望如果我在应用程序和数据库中使用UTF-8,输入输出就不会有任何问题(会吗?)
但最可怕的部分是搜索.它应该足够酷.它应该是全文,它应该索引等.我希望它能理解形态学,使用词干等.
首先,我看了Zend_Search_Lucene,但正如我在http://framework.zend.com/issues/browse/ZF/component/10021上意识到的那样,它有中文问题.:(
现在我在考虑狮身人面像.它支持英语和俄语词干.我不确定中文有多好,我不知道加上对它的支持有多难.http://www.sphinxsearch.com/forum/view.html?id=1554是一线希望,但由于没有经验丰富的Sphinx用户,我不认为我理解那里的内容.
所以,
有没有人有这种'语言无关'的搜索经验,可以和我分享吗?
你能给我一些测试搜索的东西吗?作为一名具有一定英语基础知识的俄语母语人士,我可以自己测试俄语和英语搜索,但我甚至不知道这些中文照片的哪些部分是单词.请给我一些中文字符串,将它们放入索引,并进行一些具有预期结果的查询!
中文或日文等语言中的表意字符需要两个终端字符位置,因此您将遇到UTF8问题而应使用UTF16.
除此之外,支持UTF16的任何搜索引擎和你的要求(例如词干)应该可以正常工作 - 也就是说,如果你喜欢Sphinx,那就去吧!
| 归档时间: |
|
| 查看次数: |
1345 次 |
| 最近记录: |