为子字符串搜索构建索引?

Che*_*ing 6 full-text-indexing

我想在数十亿字符串中进行一般子字符串搜索.该要求与一般全文搜索略有不同,因为我想查询"ubst"也可以点击"substr".

Lucene或Sphinx能做到这一点吗?如果没有,你认为最好的方法是什么?

yur*_*ura 5

这种情况下最好的索引结构是后缀树 Lucene 没有实现这种类型的索引,所以它的子字符串搜索很慢。但是 lucene 具有前缀树索引,这意味着如果您按前缀搜索术语,则可以进行快速搜索。


ZeN*_*eNo 0

Lucene 是最好的可用选项之一。Lucene 支持子字符串搜索,因此 ubst 将返回 substr。

查看http://wiki.apache.org/lucene-java/LuceneImplementations以了解合适的语言实现。