kov*_*nin 7 lucene search full-text-search sphinx search-engine
这更像是一个理论问题,而不是实践.我正在开发一个项目,这是一个非常简单的链接目录.整个模型类似于Dmoz或Yahoo目录,除了每个条目都有一些额外的属性.
我有分层分类法处理所有具有多对多关系的条目,所有条目现在都被分类到这些类别中,一切似乎都正常.现在,如果没有搜索选项,目录有什么用?
以下是关于我的模型的更多细节:每个条目都有标题,描述,URL和一些社交个人资料:YouTube,Twitter,Flickr和其他几个.每个条目都可以附加一个徽标,以及一个隐藏的标记字段.此外,标题和描述以三种不同的语言存储.所以基本上我希望搜索结果为:
我已经尝试过Sphinx并且目前正在与Lucene合作,但似乎我在理论上没有得到正确的搜索.我希望填充的条目看起来应该高于其他条目,但我无法弄清楚得分.如果在整个描述中只有一个单词匹配,我不希望不相关的条目出现在顶部,因为标题更相关.
所以我的问题是 - 是否有任何书籍,技术或其他搜索引擎(如果Sphinx和Lucene不够好),你会推荐这个问题吗?我不仅希望完全控制搜索结果及其排名,还能为访问者提供正确且相关的信息.
关于酷文章的链接也很受欢迎!
并没有,我并不想重建谷歌:)
谢谢 :)
当我们开始使用Lucene时,我们有了第一版,它会逐步引导您完成所需的一切.强烈推荐.第2版更新为最新版本(3.xx).
在TF-IDF算法效果很好的(大)的文本,但是如果你有一个像记录结构就可能会适得其反:有几方面的文件被认为是更"相关"比很多方面的人.使用Lucene,你会得到它的工作,但你必须得到你的手.
您基本上要做的是提升您的标题字段,因此它变得更加相关.您还可以更改评分机制,为具有更多信息的文档分配更高的分数.
玩得开心.如果你无法弄明白,Lucene邮件列表上有很好的支持.
我很确定 Lucene 就足够了。我们已经解决了类似的任务并且做得很好。这里有一些提示,我可以建议您回顾一下我在 Lucene.Net 上的项目。
分类:
不可搜索字段(徽标、社交资料):
三种语言、多个领域:
| 归档时间: |
|
| 查看次数: |
574 次 |
| 最近记录: |