ded*_*dek 7 lucene solr lemmatization query-parser word-sense-disambiguation
我已成功为Lucene实施捷克语引理器.我正在使用Solr对它进行测试,它在索引时非常适合.但是当用于查询时它不能很好地工作,因为查询解析器不向引理器提供任何上下文(前后的单词).
例如,pila vodu在索引时比在查询时不同地分析短语.它使用含糊不清的词pila,这可能意味着pila (看到例如电锯)或pít(动词的过去时"喝").
pila vodu - >
pít vodapila voda..所以pila找不到单词,也没有在文档片段中突出显示.
这个行为记录在solr wiki上(引用贝娄),我可以通过调试我的代码来确认它(只有孤立的字符串"pila"和"vodu"传递给引理器).
... Lucene QueryParser在向分析器提供任何文本之前在空白区域上进行标记,因此如果一个人搜索单词
sea biscit,分析器将单独给出单词"sea"和"biscit",...
是否有可能以某种方式更改,配置或调整查询解析器,以便引理器可以看到整个查询字符串,或者至少是单个单词的某些上下文?我想为dismax或edismax等不同的solr查询解析器提供解决方案.
我知道像"pila vodu"(引号)这样的短语查询没有这样的问题,但是如果没有确切的短语(例如带有"pilavíno"或甚至"pila dobrou vodu"的文档),我将丢失文档.
编辑 - 尝试解释/回答以下问题(谢谢@femtoRgon):
如果这两个术语不是一个短语,所以不一定会在一起,那么为什么要在上下文中对它们进行分析呢?
当然,最好只分析一起出现的术语.例如,在索引时,引理器检测输入文本中的句子,并且它仅一起分析来自单个句子的单词.但是如何在查询时实现类似的东西呢?实现我自己的查询解析器是唯一的选择吗?我很喜欢pf2和pf3的选项edismax解析器,我会在我自己的解析器的情况下,再次实施呢?
背后的想法实际上更深一点,因为即使对于具有相同词汇基础的词语,词形除法也在进行词义消歧.例如,这个词bow在英语中有大约7种不同的感官(参见维基百科),并且这种词义可以区分这种感官.所以我想利用这种潜力使搜索更加精确 - 只返回包含bow查询所需的具体意义上的单词的文档.所以我的问题可以扩展到:如何获得<lemma;sense>查询词的正确对?如果单词在其共同的上下文中呈现,则引理器通常能够分配正确的意义,但是当没有上下文时它就没有机会.
最后,我实现了自己的查询解析器。
edismax由于有源作为指南和参考实现,这并不困难。edismax我可以轻松地将我的解析器结果与...的结果进行比较
解决方案 :
首先,我一起分析整个查询字符串。这给了我“令牌”列表。
与停用词有一点冲突 - 获取停用词的标记并不容易,因为分析器忽略了它们,但您可以从 中检测到它们PositionIncrementAttribute。
我以与“标记”相同的方式构造查询edismax(例如,创建实例中组合的所有 2 标记和/或 3 标记短语查询DisjunctionMaxQuery)。
| 归档时间: |
|
| 查看次数: |
565 次 |
| 最近记录: |