如何改善Sphinx中句子的检测?

mnv*_*mnv 8 full-text-search sphinx full-text-indexing

可以使用Sphinx在一个句子中搜索单词.例如,我们有下一个文字:

Васямолодец,съелогурец,т.к.проголодался.Такиедела.

如果我搜索

??????? SENTENCE ??????
Run Code Online (Sandbox Code Playgroud)

我找到了这个文字.如果我搜索

??????? SENTENCE ????????????
Run Code Online (Sandbox Code Playgroud)

我找不到这个文字,因为短语中的点?.?.被视为句末.

我怎么看,一组分隔符在Sphinx的源代码中是硬编码.

我的问题是如何改善判刑的检测?更好的方法是使用Yandex的Tomita解析器或另一个nlp库,智能检测句子.

mnv*_*mnv 1

使用 Yandex 的 Tomita 解析器将文本拆分为句子。我们得到了由“\n”分隔的文本。

删除所有 ”。”, ”!”, ”?” 每个句子都留到最后。

使用此预处理数据构建 Sphinx 索引。