使用NLP进行句子检测

Roo*_*nan 8 java nlp opennlp text-segmentation

我试图解析大量文本中的句子.使用java我开始使用OpenPLP和Stanford的Parser等N​​LP工具.

但这里是我被卡住的地方.虽然这两种解析器都非常棒,但它们在非统一文本方面却失败了.

例如,在我的文本中,大多数句子都是以句点分隔的,但在某些情况下,例如子弹点则不是.这两个解析都失败了.

我甚至尝试在stanford解析中为多个句子终结符设置选项,但输出并没有好多少!

有任何想法吗??

编辑:为了使它更简单,我希望解析文本,其中分隔符是新行("\n")或句点(".")...

bma*_*ies 6

首先,您必须明确定义任务.究竟,你对"一句话"的定义是什么?在你有这样一个定义之前,你只会在圈子里徘徊.

其次,清理脏文本通常是与"句子分裂"完全不同的任务.各种NLP句子块正在假设相对干净的输入文本.从HTML,或提取的powerpoint或其他噪声到文本是另一个问题.

第三,斯坦福和其他大口径设备是统计的.因此,它们保证具有非零错误率.您的数据越接近他们所训练的内容,错误率就越高.