使用机器学习的段落分割

Question

我有一个PDF格式的大型文档库.这些文件来自不同的来源,没有一种单一的风格.我使用Tika从文档中提取文本,现在我想将文本分段为段落.

我不能使用正则表达式,因为文档没有单一的样式:

所以我转向机器学习.在(伟大的)Python NLTK书中,使用"."之前和之后的字符等属性对句子进行分词时,可以很好地使用分类.有贝叶斯网络,但没有段落分割.

所以我的问题是:

Answer 1

令人惊讶的是，关于自动检测段落边界这一主题的研究很少。我发现了以下内容，所有这些都相当古老：