哪个Wiki解析器?

6 c c++ wiki parsing mediawiki

有没有人知道一个解析器可以将Wiki格式的文本作为输入并生成实体树,就像XML解析器生成实体树一样?为了澄清,我正在寻找一些需要文本的东西:

 -Intro-
 Textual stuff in ''italics''
 --Subhead--
 Yet more text
Run Code Online (Sandbox Code Playgroud)

并生成一个植根于Intro的树,其中有三个子节点,其中一个(子头)本身有一个子节点.我正在寻找能够理解http://meta.wikimedia.org/wiki/Help:Wikitext中描述的"简单"wiki格式的东西.

我知道Wiki文本的几个词法分析器,但没有树解析器.我正在寻找开源的东西,用C或C++编写.

Cha*_*tin 2

您无法直接从 wiki 格式的页面执行此操作,因为 wiki 格式没有完整的信息。相反,wiki 格式文本基本上是通过一堆正则表达式规则进行翻译,并插入到 HTML 或 XHTML 中的预定义页面框架中。

完成您想要的操作的最简单方法是为某些轻量级文本格式(例如纺织或克里奥尔语)找到合适的格式化程序,将其传递以生成 XHTML,然后使用任何常规解析器解析 XHTML。