过去几天我一直在研究soundex,metaphone和其他字符串搜索技术,据我所知,这两种算法在处理音译到英语的非英语单词时效果很好.
然而,我的要求是这样的搜索工作在原始的,非音译语言,容纳字母表,如德语,挪威语,甚至Cyrilic字母表.
有没有能够完全处理这些字母的搜索算法?或者我最好使用第三方全文搜索库,如Lucene?因此,问题就变成了"Lucene处理非英文字母吗?"
我正在通过所有现有问题的帖子,但无法得到一些相关的东西.
我有人数名,姓,地址1,地址2,国家代码,出生日期的数百万条记录的文件 - 我想每天检查我的客户名单(我的客户名单也每天更新和文件也每天更新).
对于名字和姓氏,我想模糊匹配(可能是lucene fuzzyquery/levenshtein距离90%匹配),对于剩余字段国家和出生日期我想要完全匹配.
我是Lucene的新手,但通过查看帖子的数量,看起来很可能.
我的问题是:
还有其他方法可以实现吗?
我很确定solr可以设置为在搜索期间识别同义词.我想知道是否可以用昵称做同样的事情 - 所以例如搜索"Robert"会将"Bob"记录在其中.