解析XML/XHTML文档但忽略C#中的错误

Question

我正在写分析的几个网页源一些小的应用程序,提取一些数据,并保存成另一种格式.具体来说,我的一些银行不提供交易/报表的下载,但它们确实提供了对其网站上的这些报表的访问.

我做了一个很好,但另一个(HSBC UK)被证明在一个痛苦的屁股,因为它的来源是无效的XHTML.例如,有空白的前<?xml?>标签,并且存在其中的地方==是用来代替=属性名和其值(例如间<li class=="lastItem">).

当然,当我通过这个数据到我XmlDocument,它抛出一个不稳定(更准确的除外).

我的问题是:是否可以放宽C#中XML解析的要求？我知道这是要好得多,从源头解决这些问题 - 这绝对是我的态度太 - 但有大约几率为零汇丰会改变他们的网站,该网站已经工作在大多数浏览器只是有点老了我.

Answer 1

看一下HTML敏捷包.它允许您通过XPath提取非XHTML兼容网页的元素,就好像它是一个格式良好的XHTML文档.

而对于Kleene的爱,不要尝试使用任何复杂的格式重新编写HTML页面!