脚本(即结构化计算机语言)有很多解析器和词法分析器.但我正在寻找能够将(几乎)非结构化文本文档分解为更大的部分的文档,例如章节,段落等.
一个人识别它们相对容易:目录,确认或主体开始的位置,并且可以构建基于规则的系统来识别其中的一些(例如段落).
我不认为它是完美的,但有没有人知道这么宽泛的'基于块'的词法分析器/解析器?或者你能指出我可能有帮助的文学方向吗?
parsing document lexer
document ×1
lexer ×1
parsing ×1