小编Rus*_*hik的帖子

Lucene模糊搜索客户名称和部分地址

我正在通过所有现有问题的帖子,但无法得到一些相关的东西.

我有人数名,姓,地址1,地址2,国家代码,出生日期的数百万条记录的文件 - 我想每天检查我的客户名单(我的客户名单也每天更新和文件也每天更新).

对于名字和姓氏,我想模糊匹配(可能是lucene fuzzyquery/levenshtein距离90%匹配),对于剩余字段国家和出生日期我想要完全匹配.

我是Lucene的新手,但通过查看帖子的数量,看起来很可能.

我的问题是:

我该如何索引输入文件？我需要在FN,LN,country,DOB的组合上构建索引并使用索引进行搜索
我怎么能在这里使用Lucene的模糊查询？

还有其他方法可以实现吗？

lucene fuzzy-search

Rus*_*hik

2015 10-29

7
推荐指数

1
解决办法

5813
查看次数

使用CLucene vs java lucene

我目前正在将Java lucene用于其中一个项目并获得良好的性能.我正在寻找lucene的C/C++选项,并在sourceforge上遇到了CLucene.

但我想检查一下CLucene是否像Java lucene一样稳定可靠,并且拥有Java Lucene支持的所有功能,是否也获得了apache许可并得到了积极支持？如果是,为什么我没有选择在apache Lucene网站上下载CLucene(在apache lucene网站上我有lucene.net选项).

想更多地了解CLucene对企业软件的使用.

lucene clucene

Rus*_*hik

lucky-day

7
推荐指数

2
解决办法

8780
查看次数

lucene ngram tokenizer 用于模糊短语匹配

我试图通过使用 lucene 来实现模糊短语搜索（以匹配拼写错误的单词），通过参考我想在模糊短语搜索上尝试 ngram 索引的各种博客。

但我找不到 ngram tokenizer 作为我的 lucene3.4 JAR 库的一部分，它是否已被弃用并被其他东西替换？- 目前我正在使用 standardAnalyzer，我在术语的精确匹配方面获得了不错的结果。

我有以下两个要求需要处理。

我的索引有包含短语“xyz abc pqr”的文档，当我提供查询“abc xyz”~5时，我能够获得结果，但我的要求是获得同一文档的结果，即使我有一个额外的单词，如“ abc xyz pqr tst" 在我的查询中（我知道匹配分数会少一些） - 在短语中使用邻近额外单词不起作用，如果我从查询中删除邻近和双引号 " "，我会得到预期的结果（但有我收到许多误报，例如仅包含 xyz、仅 abc 等的文档。）

在上面的例子中，如果有人拼错查询“abc xxz”，我仍然想获得同一文档的结果。

我想尝试一下 ngram，但不确定它是否会按预期工作。

有什么想法吗？

lucene solr fuzzy-search

Rus*_*hik

lucky-day

2
推荐指数

1
解决办法

2222
查看次数