构建全文搜索引擎:从哪里开始

Gab*_*ona 9 python full-text-search

我想使用Google App Engine编写Web应用程序(因此参考语言将是Python).我的应用程序需要一个简单的搜索引擎,因此用户可以找到指定关键字的数据.

例如,如果我有一个包含这些行的表:

1办公空间
2 2001年:太空漫游
3巴西

并且用户查询"space",将返回第1行和第2行.如果用户查询"办公空间",则结果也应为第1行和第2行(第1行为第1行).

以简单的方式执行此操作的技术指南/算法是什么?
你能否指出我背后的理论的好指点?

谢谢.

编辑:我不是在寻找任何复杂的东西(比如索引大量的数据).

Mar*_*ade 7

阅读Tim Bray 关于这一主题系列文章.

  • 背景
  • 搜索引擎的使用
  • 基本
  • 精确和召回
  • 搜索引擎情报
  • 棘手的搜索词
  • 停用词
  • 元数据
  • 国际化
  • 排名结果
  • XML
  • 机器人
  • 要求清单


Fer*_*cio 6

我发现这两本书在我用来构建全文搜索引擎时非常有用.

信息检索

管理千兆字节


小智 4

如果可能的话,我不会自己建造它。

App Engine 包含全文搜索引擎的基础知识,这里有一篇很棒的博客文章介绍了如何使用它。

错误跟踪器中还有一个功能请求,最近似乎引起了一些关注,因此如果可以的话,您可能需要坚持下去,直到实现为止。