mnv*_*mnv 8 full-text-search sphinx full-text-indexing
可以使用Sphinx在一个句子中搜索单词.例如,我们有下一个文字:
Васямолодец,съелогурец,т.к.проголодался.Такиедела.
如果我搜索
??????? SENTENCE ??????
Run Code Online (Sandbox Code Playgroud)
我找到了这个文字.如果我搜索
??????? SENTENCE ????????????
Run Code Online (Sandbox Code Playgroud)
我找不到这个文字,因为短语中的点?.?.被视为句末.
我怎么看,一组分隔符在Sphinx的源代码中是硬编码的.
我的问题是如何改善判刑的检测?更好的方法是使用Yandex的Tomita解析器或另一个nlp库,智能检测句子.
使用 Yandex 的 Tomita 解析器将文本拆分为句子。我们得到了由“\n”分隔的文本。
删除所有 ”。”, ”!”, ”?” 每个句子都留到最后。
使用此预处理数据构建 Sphinx 索引。