mik*_*iku 17 parsing document rfc
RFC(http://www.ietf.org/rfc.html)通常作为文本文件发布.
有限数量的RFC以XML格式提供,网址为http://xml.resource.org/public/rfc/xml/
您还可以使用来自http://xml.resource.org/public/rfc/bibxml/的 Bib XML合并文本数据.
IETF在HTML中维护最小标记的RFC,例如:
http://tools.ietf.org/html/rfc2616.html
但标记主要包括实现目录的锚点; 和主体标记,主要是<pre> ... </ pre>.尽管如此,也许可以对这些RFC 进行一些有意义的解析.
W3C有一些HTML化的RFC,例如:
http://www.w3.org/Protocols/rfc2616/rfc2616.html
其中标记在语义上稍微丰富一些,因此可能更适合解析.