htf*_*htf 7 php lucene full-text-search sphinx
我正准备将基于Sphinx的搜索整合到网站中,但我发现没有内置的拼写纠正支持.
网上的人建议使用pspell或其他第三方库来完成工作,但问题是我要搜索的数据,主要包含"技术"术语,如品牌名称,因此我不认为常见的库将包括他们.
另一方面,Xapian表示根据索引的数据进行拼写纠正支持,这正是我想要的.是否值得使用Xapian?我仍然对我应该使用哪个全文搜索引擎感到困惑:Sphinx似乎相当不错,但缺少Xapian(或者Lucene?)的一些很酷的功能,而后者看起来像社区较少,文档较少.
我想我可以用pspell字典中没有的单词使用自定义单词解决问题,但是我不确定这是否会带来明显的性能损失?我将在一个非常受欢迎的网站上使用搜索系统进行聚光灯搜索(在输入的每个字母上通过ajax单独搜索),因此性能很重要.
理想情况下,我想让一些像品牌这样的领域比普通字典更优先,但我想这并不重要,因为大多数品牌名称与其他词汇截然不同.
关于自定义全文搜索引擎的一般设计的任何建议也是受欢迎的.
谢谢
Sphinx没有内置的拼写校正功能,但可以使用Sphinx实现.在这里可以找到一篇关于这个的方法文章(由Sphinx作者)http://habrahabr.ru/blogs/sphinx/61807(俄语版,你可以使用GoogleTranslate阅读这篇文章.看看文章的第二部分名为"Японял,этонамек.")
我最近实现了这个方法 - 工作完美!
小智 1
Sphinx 允许您使用形态预处理器和词形词典。这两者结合起来可以让你更接近你想要实现的目标。您可以在此处阅读有关这两个主题的更多信息:http://sphinxsearch.com/docs/manual-0.9.8.html#conf-morphology以及下文。
有多种形态预处理器可供选择,选择最适合您需求的一种。该文档还提到了 Snowball 项目,如果需要,该项目可用于添加除内置英语和俄语之外的其他语言的词干。项目网站: http: //snowball.tartarus.org/
Sphinx 是一个非常快的全文搜索引擎,使用词干分析器不太可能将其速度减慢到您开始注意到它的程度。
| 归档时间: |
|
| 查看次数: |
4065 次 |
| 最近记录: |