可能重复:
在C#中解析html的最佳方法是什么?
我想提取HTML文档的结构 - 所以标签比内容更重要.理想情况下,它也能够在一定程度上合理地处理格式错误的HTML.
有人知道一个可靠而有效的解析器吗?
很明显,有很多问题看起来像一个简单的正则表达式将解决,但事实证明,使用正则表达式很难解决.
那么,不是正则表达式专家的人怎么知道他/她是否应该学习正则表达式来解决给定的问题?
(请参阅"正则表达式解析C#源代码以查找所有字符串",以便我提出这个问题.)
这似乎总结得很好:
(我刚刚更改了问题的标题以使其更具体,因为在C#中使用Regex的一些问题在Perl和JScript中得到了解决,例如,两个引用级别使Regex难以理解.)