byn*_*eri 2 c# html-parsing xml-parsing
我正在尝试解析的一段HTML包含一些没有引号的属性值,例如width和height属性:
<img src="/static/logo.png" width=75 height=90 />
Run Code Online (Sandbox Code Playgroud)
在C#代码中,读取器将读取直到下一个锚标记.
while (reader.ReadToFollowing("a"))
Run Code Online (Sandbox Code Playgroud)
此语句报告XmlException:
'75' is an unexpected token. The expected token is '"' or '''. Line 16, position 37.
Run Code Online (Sandbox Code Playgroud)
是否有一些XmlReaderSetting使XmlReader更宽松?我无法控制生成的HTML.
为了阅读HTML,您需要一个专为此目的而设计的阅读器.该HtmlAgilityPack可以帮助你在这里,因为可以在SgmlReader提到的这个答案到一个相关的问题.
HTML不是XML.它们都基于SGML,但遵循不同的规则.XML具有比HTML更严格的规则,其中包括需要关闭所有标记以及用单引号或双引号包围的属性.因此,除非您正在解析符合XML的XHTML,否则XmlReader将无法为您工作.
归档时间: |
|
查看次数: |
1139 次 |
最近记录: |