(un)结构化文本文档的词法分析器/解析器

wil*_*n32 7 parsing document lexer

脚本(即结构化计算机语言)有很多解析器和词法分析器.但我正在寻找能够将(几乎)非结构化文本文档分解为更大的部分的文档,例如章节,段落等.

一个人识别它们相对容易:目录,确认或主体开始的位置,并且可以构建基于规则的系统来识别其中的一些(例如段落).

我不认为它是完美的,但有没有人知道这么宽泛的'基于块'的词法分析器/解析器?或者你能指出我可能有帮助的文学方向吗?

Nou*_*him 1

许多轻量级标记语言,如markdown(顺便说一下 SO 使用)、重构文本和(可以说)POD与您所说的类似。它们具有最少的语法并将输入分解为可解析的语法片段。您也许可以通过阅读它们的实现来获取一些信息。