101*_*101 3 c c++ parsing nlp
我试图将PDF页面的文本解析为句子,但这比我预期的要困难得多.有很多特殊情况要考虑,例如首字母,小数,引号等,其中包含句点但不一定结束句子.
我很好奇这里是否有人熟悉用于C或C++的NLP库,可以帮助我完成这项任务或提供任何建议?
感谢您的任何帮助.
Avi*_*Avi 6
这是一个称为句子边界消歧的问题.它的维基百科页面列出了一些库,但我不确定它们中的任何一个是否可以从C轻松调用.
你可以找到很多关于句子边界消歧理论的论文.Unicode标准附件#29中的Unicode标准 - Unicode文本分割也定义了简单的句子边界检测算法.
归档时间:
16 年,5 月 前
查看次数:
3270 次
最近记录:
14 年,4 月 前