标签: fuzzy-search

我正在尝试模糊搜索"jahngir"~0.2,这不会返回任何结果.我的索引记录了数据"JAHANGIR RAHMAN MD".如果我尝试使用确切的单词"jahangir"~0.2进行搜索,它就可以了.关于我做错了什么,有人可以帮忙吗？我花了很多时间试图弄清楚Solr Fuzzy搜索是如何工作的.任何解释Solr模糊搜索的链接都会有所帮助.下面是我用于索引的文本字段.提前致谢.

 <fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <!-- in this example, we will only use synonyms at query time
    <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
    -->
    <!-- Case insensitive stop word removal.
      add enablePositionIncrements=true in both the index and query
      analyzers to leave a 'gap' for more accurate phrase queries.
    -->
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"
            />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.CommonGramsFilterFactory" words="stopwords.txt" …

Run Code Online (Sandbox Code Playgroud)

solr fuzzy-search

Rav*_*avi

2012 12-14

14
推荐指数

1
解决办法

2万
查看次数

Python中的模糊字符串匹配

我有两个超过一百万个名称的列表,命名约定略有不同.这里的目标是匹配那些相似的记录,具有95%置信度的逻辑.

我知道有一些我可以利用的库,比如Python中的FuzzyWuzzy模块.

然而,就处理而言,似乎将占用太多资源,将1个列表中的每个字符串与另一个列表进行比较,在这种情况下,似乎需要100万乘以另外的百万次迭代次数.

这个问题还有其他更有效的方法吗？

更新:

所以我创建了一个bucketing函数,并应用了一个简单的规范化,即删除空格,符号并将值转换为小写等...

for n in list(dftest['YM'].unique()):
    n = str(n)
    frame = dftest['Name'][dftest['YM'] == n]
    print len(frame)
    print n
    for names in tqdm(frame):
            closest = process.extractOne(names,frame)

Run Code Online (Sandbox Code Playgroud)

通过使用pythons pandas,将数据加载到按年分组的较小桶中,然后使用FuzzyWuzzy模块,process.extractOne用于获得最佳匹配.

结果仍然有点令人失望.在测试期间,上面的代码用于仅包含5千个名称的测试数据框,并且占用将近一个小时.

测试数据被拆分.

名称
出生日期的年月

我正在用他们的YM在同一桶中的桶进行比较.

问题可能是因为我使用的FuzzyWuzzy模块？感谢任何帮助.

python algorithm fuzzy-search fuzzywuzzy

Ber*_*rdL

2016 08-21

14
推荐指数

1
解决办法

8504
查看次数

ElasticSearch中的模糊设置

需要一种方法让我的搜索引擎处理搜索字符串中的小拼写错误,并仍然返回正确的结果.

根据ElasticSearch文档,有三个值与文本查询中的模糊匹配相关:模糊性,max_expansions和prefix_length.

不幸的是,关于这些参数究竟是做什么的,并没有很多详细信息,以及它们的合理值.我知道模糊性应该是0到1.0之间的浮点数,而另外两个是整数.

任何人都可以为这些参数推荐合理的"起点"值吗？我确信我将不得不通过反复试验来调整,但我只是在寻找球场价值来正确处理拼写错误和拼写错误.

search fuzzy-search elasticsearch

Cla*_*ell

2015 11-13

12
推荐指数

2
解决办法

7043
查看次数

ElasticSearch使用Fuzziness查询多个字段的multi_match

如何在multi_match查询中添加模糊性？因此,如果有人要搜索'basball',它仍会找到'棒球'文章.目前我的查询如下所示:

POST /newspaper/articles/_search
{
    "query": {
        "function_score": {
            "query": {
                "multi_match": {
                    "query": "baseball",
                    "type": "phrase",
                    "fields": [
                        "subject^3", 
                        "section^2.5", 
                        "article^2", 
                        "tags^1.5",
                        "notes^1"
                    ]
                }
            }
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

我正在考虑的一个选择是做这样的事情,只是不知道这是否是最好的选择.根据评分保持排序很重要:

   "query" : { 
      "query_string" : { 
         "query" : "subject:basball^3 section:basball^2.5 article:basball^2", 
         "fuzzy_prefix_length" : 1 
      } 
   }

Run Code Online (Sandbox Code Playgroud)

建议？

fuzzy-search elasticsearch

Fun*_*ado

2018 01-26

12
推荐指数

1
解决办法

1万
查看次数

模糊比特匹配

我有一个非常长的位序列,称为比特序列A,以及更短的比特序列x.在对齐它们之后,相同长度的两个比特序列是模糊匹配的,存在k或者更少的不匹配比特.我想在A中找到x的所有模糊出现.

到目前为止,我已经尝试过天真的方法.循环通过A,然后对于每个位,循环遍历x的长度,计算从A中该位置开始的不匹配位的数量,如果它不超过k,则报告该位置.该算法效率不高.如果A具有n_A位,并且x具有n_x位,则运行时间为O(n_A * n_x).

我被告知O(n_A * log(n_A))无论如何都可以做到这一点k.提供的提示是利用快速傅立叶变换.请记住,两个输入在此输入图像描述和 ,卷积产生哪里

QQN

类似于多项式乘法.我不清楚如何使用这个提示.任何帮助将非常感激.

algorithm fuzzy-search

dar*_*sky

2013 09-28

11
推荐指数

1
解决办法

659
查看次数

Fuzzy regex (e.g. {e<=2}) correct usage in Python

I am trying to find strings which are at most two mistakes 'away' from the original pattern string (i.e. they differ by at most two letters).

However, the following code isn't working as I would expect, at least not from my understanding of fuzzy regex:

import regex
res = regex.findall("(ATAGGAGAAGATGATGTATA){e<=2}", "ATAGAGCAAGATGATGTATA", overlapped=True)
print res
>> ['ATAGAGCAAGATGATGTATA']  # the second string

Run Code Online (Sandbox Code Playgroud)

As you can see, the two strings differ on three letters rather than at most two:

the first has: ATAG …

python regex fuzzy-search pypi-regex

Alo*_*ona

2019 07-07

11
推荐指数

2
解决办法

7532
查看次数