可能重复:
在C#中解析html的最佳方法是什么?
我想提取HTML文档的结构 - 所以标签比内容更重要.理想情况下,它也能够在一定程度上合理地处理格式错误的HTML.
有人知道一个可靠而有效的解析器吗?
我正在寻找一个库/方法来解析一个html文件,该文件具有比通用xml解析库更多的html特定功能.
我正在使用此正则表达式来查找<script>标记:
<script (.|\n)*>(.|\n)*?</script>
Run Code Online (Sandbox Code Playgroud)
问题是,它匹配下面的ENTIRE字符串,而不仅仅是每个标记:
<script src="crap2.js"></script><script src="crap2.js"></script>
Run Code Online (Sandbox Code Playgroud) 这是我的问题.哪种方法是从HTML页面中提取某些信息的最佳方式.我目前做的是以下内容:
使用WebClient下载页面
使用UTF8Encoding将接收的数据转换为字符串
将字符串转换为XML
使用.NET Framework中与Xml相关的类提取所需的数据
这就是我目前以概括的形式做的事情.谁知道另一种方法?什么可以更快或更容易?
最诚挚的问候,基里尔
PS:我听说过一个名为Watin的测试框架
这允许你做类似的事情,但没有进行太多的研究