小编wil*_*n32的帖子

(un)结构化文本文档的词法分析器/解析器

脚本(即结构化计算机语言)有很多解析器和词法分析器.但我正在寻找能够将(几乎)非结构化文本文档分解为更大的部分的文档,例如章节,段落等.

一个人识别它们相对容易:目录,确认或主体开始的位置,并且可以构建基于规则的系统来识别其中的一些(例如段落).

我不认为它是完美的,但有没有人知道这么宽泛的'基于块'的词法分析器/解析器?或者你能指出我可能有帮助的文学方向吗?

parsing document lexer

7
推荐指数
1
解决办法
413
查看次数

标签 统计

document ×1

lexer ×1

parsing ×1