如何改善Sphinx中句子的检测？

Question

可以使用Sphinx在一个句子中搜索单词.例如,我们有下一个文字:

Васямолодец,съелогурец,т.к.проголодался.Такиедела.

如果我搜索

??????? SENTENCE ??????

我找到了这个文字.如果我搜索

??????? SENTENCE ????????????

我找不到这个文字,因为短语中的点?.?.被视为句末.

我怎么看,一组分隔符在Sphinx的源代码中是硬编码的.

我的问题是如何改善判刑的检测？更好的方法是使用Yandex的Tomita解析器或另一个nlp库,智能检测句子.

Answer 1

使用 Yandex 的 Tomita 解析器将文本拆分为句子。我们得到了由“\n”分隔的文本。

删除所有 ”。”， ”！”， ”？” 每个句子都留到最后。

使用此预处理数据构建 Sphinx 索引。