小编Rus*_*hik的帖子

Lucene模糊搜索客户名称和部分地址

我正在通过所有现有问题的帖子,但无法得到一些相关的东西.

我有人数名,姓,地址1,地址2,国家代码,出生日期的数百万条记录的文件 - 我想每天检查我的客户名单(我的客户名单也每天更新和文件也每天更新).

对于名字和姓氏,我想模糊匹配(可能是lucene fuzzyquery/levenshtein距离90%匹配),对于剩余字段国家和出生日期我想要完全匹配.

我是Lucene的新手,但通过查看帖子的数量,看起来很可能.

我的问题是:

  • 我该如何索引输入文件?我需要在FN,LN,country,DOB的组合上构建索引并使用索引进行搜索
  • 我怎么能在这里使用Lucene的模糊查询?

还有其他方法可以实现吗?

lucene fuzzy-search

7
推荐指数
1
解决办法
5813
查看次数

使用CLucene vs java lucene

我目前正在将Java lucene用于其中一个项目并获得良好的性能.我正在寻找lucene的C/C++选项,并在sourceforge上遇到了CLucene.

但我想检查一下CLucene是否像Java lucene一样稳定可靠,并且拥有Java Lucene支持的所有功能,是否也获得了apache许可并得到了积极支持?如果是,为什么我没有选择在apache Lucene网站上下载CLucene(在apache lucene网站上我有lucene.net选项).

想更多地了解CLucene对企业软件的使用.

lucene clucene

7
推荐指数
2
解决办法
8780
查看次数

lucene ngram tokenizer 用于模糊短语匹配

我试图通过使用 lucene 来实现模糊短语搜索(以匹配拼写错误的单词),通过参考我想在模糊短语搜索上尝试 ngram 索引的各种博客。

但我找不到 ngram tokenizer 作为我的 lucene3.4 JAR 库的一部分,它是否已被弃用并被其他东西替换?- 目前我正在使用 standardAnalyzer,我在术语的精确匹配方面获得了不错的结果。

我有以下两个要求需要处理。

我的索引有包含短语“xyz abc pqr”的文档,当我提供查询“abc xyz”~5时,我能够获得结果,但我的要求是获得同一文档的结果,即使我有一个额外的单词,如“ abc xyz pqr tst" 在我的查询中(我知道匹配分数会少一些) - 在短语中使用邻近额外单词不起作用,如果我从查询中删除邻近和双引号 " ",我会得到预期的结果(但有我收到许多误报,例如仅包含 xyz、仅 abc 等的文档。)

在上面的例子中,如果有人拼错查询“abc xxz”,我仍然想获得同一文档的结果。

我想尝试一下 ngram,但不确定它是否会按预期工作。

有什么想法吗 ?

lucene solr fuzzy-search

2
推荐指数
1
解决办法
2222
查看次数

标签 统计

lucene ×3

fuzzy-search ×2

clucene ×1

solr ×1