使用机器学习的段落分割

Gin*_*ino 5 python nlp machine-learning apache-tika text-segmentation

我有一个PDF格式的大型文档库.这些文件来自不同的来源,没有一种单一的风格.我使用Tika从文档中提取文本,现在我想将文本分段为段落.

我不能使用正则表达式,因为文档没有单一的样式:

  • \nl段落之间的数量在2到4之间.
  • 在某些文档中,单个段落中的行分隔为2 \nl,有些则为单个\nl.

所以我转向机器学习.在(伟大的)Python NLTK书中,使用"."之前和之后的字符等属性对句子进行分词时,可以很好地使用分类.有贝叶斯网络,但没有段落分割.

所以我的问题是:

  • 还有另一种段落分割方式吗?
  • 如果我使用机器学习,是否有可用于培训的分段段落的标记数据?

mar*_*wun 2

令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容,所有这些都相当古老:

Sporleder 和 Lapata (2004):自动段落识别:跨语言和领域的研究

Sporleder 和 Lapata (2005):跨语言和领域的广泛覆盖段落分割

Filippova 和 Strube (2006):使用语言动机特征进行段落边界识别

Genzel (2005)段落边界检测系统