Gin*_*ino 5 python nlp machine-learning apache-tika text-segmentation
我有一个PDF格式的大型文档库.这些文件来自不同的来源,没有一种单一的风格.我使用Tika从文档中提取文本,现在我想将文本分段为段落.
我不能使用正则表达式,因为文档没有单一的样式:
\nl
段落之间的数量在2到4之间.\nl
,有些则为单个\nl
.所以我转向机器学习.在(伟大的)Python NLTK书中,使用"."之前和之后的字符等属性对句子进行分词时,可以很好地使用分类.有贝叶斯网络,但没有段落分割.
所以我的问题是:
令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容,所有这些都相当古老:
Sporleder 和 Lapata (2004):自动段落识别:跨语言和领域的研究
Sporleder 和 Lapata (2005):跨语言和领域的广泛覆盖段落分割
Filippova 和 Strube (2006):使用语言动机特征进行段落边界识别
Genzel (2005)段落边界检测系统