我正在通过所有现有问题的帖子,但无法得到一些相关的东西.
我有人数名,姓,地址1,地址2,国家代码,出生日期的数百万条记录的文件 - 我想每天检查我的客户名单(我的客户名单也每天更新和文件也每天更新).
对于名字和姓氏,我想模糊匹配(可能是lucene fuzzyquery/levenshtein距离90%匹配),对于剩余字段国家和出生日期我想要完全匹配.
我是Lucene的新手,但通过查看帖子的数量,看起来很可能.
我的问题是:
还有其他方法可以实现吗?
我目前正在将Java lucene用于其中一个项目并获得良好的性能.我正在寻找lucene的C/C++选项,并在sourceforge上遇到了CLucene.
但我想检查一下CLucene是否像Java lucene一样稳定可靠,并且拥有Java Lucene支持的所有功能,是否也获得了apache许可并得到了积极支持?如果是,为什么我没有选择在apache Lucene网站上下载CLucene(在apache lucene网站上我有lucene.net选项).
想更多地了解CLucene对企业软件的使用.
我试图通过使用 lucene 来实现模糊短语搜索(以匹配拼写错误的单词),通过参考我想在模糊短语搜索上尝试 ngram 索引的各种博客。
但我找不到 ngram tokenizer 作为我的 lucene3.4 JAR 库的一部分,它是否已被弃用并被其他东西替换?- 目前我正在使用 standardAnalyzer,我在术语的精确匹配方面获得了不错的结果。
我有以下两个要求需要处理。
我的索引有包含短语“xyz abc pqr”的文档,当我提供查询“abc xyz”~5时,我能够获得结果,但我的要求是获得同一文档的结果,即使我有一个额外的单词,如“ abc xyz pqr tst" 在我的查询中(我知道匹配分数会少一些) - 在短语中使用邻近额外单词不起作用,如果我从查询中删除邻近和双引号 " ",我会得到预期的结果(但有我收到许多误报,例如仅包含 xyz、仅 abc 等的文档。)
在上面的例子中,如果有人拼错查询“abc xxz”,我仍然想获得同一文档的结果。
我想尝试一下 ngram,但不确定它是否会按预期工作。
有什么想法吗 ?