什么是最准确的句子分裂开源工具?

sam*_*xli 8 parsing nlp tokenize

我需要将文本分成句子.我正在玩OpenNLP的句子检测工具.我也听说过NLTK和Stanford CoreNLP工具.什么是最准确的英语句子检测工具?我不需要太多的NLP功能 - 只是一个很好的句子分割/检测工具.

我也听说过Lucene ......但这可能太多了.但如果它有一个kick-ass句子检测模块,那么我将使用它.

yur*_*ura 1

检查 lingpipe 实现http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html

他们的模型非常强大,并且易于实现 - 在任何可能的句子分割处检查一些前/后规则(又名正则表达式),仅此而已。我发现它比 GATE 和 OpenNLP 中的效果更好。

还有另一个支持这种启发式模型的开源项目作为示例,http://code.google.com/p/graph-expression/wiki/SentenceSplitting