将文本解析成句子?

101*_*101 3 c c++ parsing nlp

我试图将PDF页面的文本解析为句子,但这比我预期的要困难得多.有很多特殊情况要考虑,例如首字母,小数,引号等,其中包含句点但不一定结束句子.

我很好奇这里是否有人熟悉用于C或C++的NLP库,可以帮助我完成这项任务或提供任何建议?

感谢您的任何帮助.

Avi*_*Avi 6

这是一个称为句子边界消歧的问题.它的维基百科页面列出了一些库,但我不确定它们中的任何一个是否可以从C轻松调用.

你可以找到很多关于句子边界消歧理论的论文.Unicode标准附件#29中的Unicode标准 - Unicode文本分割也定义了简单的句子边界检测算法.