在Solr 3.4.0中支持EdegeNGram分析和短语搜索

Question

在Solr 3.4.0中支持EdegeNGram分析和短语搜索

我想在SOLR查询中启用"startsWith"搜索每个术语,但也能够执行短语搜索(在引号中给出).对于前缀搜索首先我添加了后缀"*".此解决方案允许前缀搜索和短语搜索,但我不喜欢此解决方案,因为它是通配符搜索,通配符搜索不分析条款.

所以我只在索引时启用了EdgeNgramFilterFactory.前缀搜索工作正常,但确切的短语搜索不再起作用.

有没有人知道如何启用短语搜索,即使启用了EdgeNgram？

谢谢!

这是schema.xml

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="back" />
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front" />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>

        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldType>

Run Code Online (Sandbox Code Playgroud)

另外我注意到当使用WordDelimiterFilterFactory时,突出显示不再表现良好.

Answer 1

Gri*_*mmo 5

短语搜索不起作用,因为EdgeNGram产生了额外的术语并增加了单词每个块的术语位置(令人惊讶).短语预计是精确的,意味着两个连续项之间的距离(slops)是1.但是对于块,索引文本看起来不同.想象一下,您使用了索引文本"Hello World" <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" side="front"/>.然后索引文本看起来就像"他好,你好,我好世界".你会发现短语"hel hell"而不是"hello world".

在此输入图像描述

作为选项,您可以通过增加查询解析器的qs参数(dismax)来允许单词之间的一些距离.

但是"不精确的短语"搜索可能是不可接受的,因为你会发现其他意想不到的短语,比如'hel hell'.

更好的选择是为ngrams使用单独的字段.在这种情况下,文本将在两个字段中编入索引,而ngrams不会破坏原始文本.

归档时间：	13 年，9 月前
查看次数：	1448 次
最近记录：	12 年，8 月前